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效 据 挖掘 十 大 算法 详解 


效 据 挖掘 学 习 笔 记 -- 决 案 树 C4.5 


来 源 : http://blog.csdn.net/u011067360/article/details/21861989 


在 网 上 和 教材 上 也 看 了 有 很 多 数据 挖掘 方面 的 很 多 知识 ， 自 己 也 学 习 很 多 ， 束 准 各 把 自己 学 
习 和 别人 分 享 的 结合 去 总 结 下 ， 以 各 以 后 自己 回 关 看 ， 看 别人 总 还 是 比 不 上 自己 写 点 ， 及 时 
有 些 不 懂 或 者 是 没有 必要 。 


定义 : 分 类 树 (决策 树 ) 是 一 种 十 分 常用 的 分 类 方法 。 他 是 一 种 监管 学 习 ， 所 谓 监 管 学 习 说 
白 了 很 简单 ， 融 是 给 定 一 堆 样 本 ， 每 个 样本 都 有 一 组 属性 和 一 个 类 别 ， 这 些 类 别 是 事先 确定 
的 ， 那 么 通过 学 习 得 到 一 个 分 类 器 ， 这 个 分 类 器 能 够 对 新 出 现 的 对 象 给 出 正确 的 分 类 。 这 样 
的 机 器 学 习 束 被 称 之 为 监督 学 习 。 分 类 本 质 上 就 是 一 个 map 的 过 程 。C4.5 分 类 树 束 是 决策 树 
算法 中 最 流行 的 一 种 。 








算法 简介 : 
1. Function C4.5(R: 包 含 连续 属性 的 无 类 别 属性 集合 , C :类 别 属性 ,S :训练 集 ) 
2. /* 返 回 一 棵 决策 树 */ 
3. Begin 
4. If S42, 返回 一 个 值 为 Failure 的 单个 节点 ， 
5, If S 是 由 相同 类 别 属 性 值 的 记录 组 成 ， 
6. 退回 一 EER A ay 
T If RIZ nE 点 ,其 值 为 在 S 的 记录 中 找 出 的 频率 最 高 的 类 别 属性 值 ; 
8. [注意 未 出 现 错误 则 意味 着 是 不 适合 分 类 的 记 京 ] ， 
9. For 所 有 的 属性 R(Ri) Do 
10. If 属性 Ri 为 连续 属性 ， 则 
Ti; Begin 
127 将 Ri 的 最 小 值 赋 给 A1 : 
13. 将 Rm 的 最 大 值 赋 给 Am ; /*m 值 手工 设置 */ 
14. For j From 2 To m-1 Do Aj=A1+j*(A1Am)/m; 
15. 将 Ri 点 的 基于 {< =Aj, >Aj} 的 最 大 信息 增益 属性 (Ri, S ) 赋 给 A ; 
16 . End ; 
I7. 将 R 中 属性 之 间 具 有 最 大 信息 增益 的 属性 (D, S ) 赋 给 
18. 将 属性 D 的 值 赋 给 {dj/j=1,2...m}; 
19. PEP Heat mF DAN Ac ek ALONSO Saket {sj/j=1,2...m}; 
20. 返回 一 棵 树 ， 其 根 标记 为 D; 树枝 标记 为 d1, d2... dm; 
21. 再 分 别 构造 以 下 树 ， 
22. C4.5(R-{D},C,S1),C4.5(R-{D},C,S2)...C4.5(R-{D},C, Sm); 


23. End C4.5 


Function C4.5(R: 包 含 连续 属性 的 无 类 别 属 性 集合 , C :类 别 属性 ,S :训练 集 ) 
/* 返 回 一 棵 决策 树 */ 
Begin 
If S 为 空 ,返回 一 个 值 为 Failure 的 单个 节点 ， 
If S 是 由 相同 类 别 属性 值 的 记录 组 成 ， 
返回 一 个 带 有 该 值 的 单个 节点 ， 
If RAZ, 则 返回 一 个 单 节点 , 其 值 为 在 S 的 记录 中 找 出 的 频率 最 高 的 类 别 属性 值 ， 
[注意 未 出 现 错误 则 意味 着 是 不 适合 分 类 的 记录 ]; 
For 所 有 的 属性 R(Ri) Do 
If 属性 Ri 为 连续 属性 ， 则 
Begin 
将 Ri 的 最 小 值 赋 给 A1 : 
将 Rm 的 最 大 值 赋 给 Am ; /*m 值 手工 设置 */ 
For j From 2 To m-1 Do Aj=A1+j*(A1Am)/m; 
将 Ri 点 的 基于 {< =Aj,>Aj} 的 最 大 信息 增益 属性 (Ri, S) 赋 给 A ; 
End ; 
将 R 中 属性 之 间 具 有 最 大 信息 增益 的 属性 (D, S ) 赋 给 D; 
将 属性 D 的 值 赋 给 {dj/j=1,2...m}; 
将 分 别 由 对 应 于 D 的 值 为 dj 的 记录 组 成 的 S 的 子 集 赋 给 {sj/j=1,2...m}; 
返回 一 棵 树 ， 其 根 标记 为 D; 树 校 标记 为 d1, d2... dm; 
再 分 别 构造 以 下 树 : 
C4.5(R-{D},C,S1),C4.5(R-{D},C,S2)...C4.5(R-{D},C, Sm); 
End C4.5 


该 算法 的 框架 表述 还 是 比较 清晰 的 ， 从 根 节点 开始 不 断 得 分 治 ， 递 为 ， 生 长 ， 直 至 得 到 最 后 
的 结果 。 根 节点 代表 整个 训练 样本 集 ,通过 在 每 个 节点 对 某 个 属性 的 测试 验证 ,算法 递归 得 将 数 
据 集 分 成 更 小 的 数据 集 . 菜 一 节点 对 应 的 子 树 对 应 着 原 数 据 集中 满足 茶 一 属性 测试 的 部 分 数据 
集 . 这 个 递 为 过 程 一 直 进 行 下 去 ,直到 某 一 节点 对 应 的 子 树 对 应 的 数据 集 都 属于 同一 个 类 为 止 ， 
例如 数据 集 对 应 得 到 的 决策 树 如 下 : 
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分 类 树 中 的 测试 是 怎样 的 ? 
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分 类 树 中 的 测试 是 针对 某 一 个 样本 属性 进行 的 测试 。 样 本 的 属性 有 两 种 ， 一 种 是 离散 变量 ， 
一 种 是 连续 变量 。 对 于 离散 变量 ， 这 很 简单 ， 离 散 变 量 对 应 着 多 个 值 ， 每 个 值 融 对 应 着 测试 
的 一 个 分 文 ， 测 试 融 是 验证 样本 对 应 的 属性 值 对 应 哪个 分 文 。 这 样 效 据 集 融会 被 分 成 几 个 小 
组 。 对 于 连续 变量 ， 所 有 连续 变量 的 测试 分 文 都 是 2 条 ， 其 测试 分 文 分 别 对 应 看 {<=A?,>a?}(a 
Rh we Xt A BY FY 14) 


如 何 选择 测试 ? 


分 类 树 中 每 个 节点 对 应 看 测试 ， 但 是 这 些 测试 是 如 何 来 选择 呢 ? C4.5 根 据 信息 论 标准 来 选择 
测试 ， 比 如 增益 CR, de ek-DANESS, FAA RH pa BSeecI 
RADIATA th A ae Se eR ALCAN, RA Et ee MAEM, ARE S (LN BER. P 
谓 增益 ， 束 是 指 在 应 用 了 菜 一 测试 之 后 ， 其 对 应 的 可 能 性 丰 晤 程度 下 降 ， 不 确定 性 减 小 ， 这 
个 减 小 的 幅度 就 是 增益 ， 其 实质 上 对 应 荐 分 类 带 来 的 好 处 ) 或 者 增益 比 (这 个 指标 实际 上 就 
等 于 增益 /， 之 所 以 采用 这 个 指标 是 为 了 克服 采用 增益 作为 衡量 标准 的 缺点 ， 采 用 增益 作为 
衡量 标准 会 导致 分 类 树 倾向 于 优先 选择 那些 具有 上 比较 多 的 分 支 的 测试 ， 这 种 倾向 需要 被 所 
a) 。 算 法 在 进行 Tree-Growth 时 ， 总 是 “ 贪 林 得 "选择 那些 信息 论 标准 最 高 的 那些 测试 。 


如 何 选择 连续 变星 的 冰 值 ? 


在 《分 类 树 中 的 测试 是 怎样 的 ?》 中 提 到 连续 变量 的 分 文 的 阅 值 点 为 a， 这 阅 值 如 何 确定 呢 ? 
很 简单 ， 把 需要 处 理 的 样本 〈 对 应 根 节 点 ) 或 样本 子 集 (对 应 子 树 ) 按照 连续 变量 的 大 小 从 

小 到 大 进行 排序 ， 假 设 该 属性 对 应 的 不 同 的 属性 值 一 共有 N 个 ， 那 么 总 共有 N-1 个 可 能 的 候选 
分 割 冰 值 氮 ， 每 个 候选 的 分 割 阔 值 点 的 值 为 上 述 排序 后 的 属性 值 链表 中 两 两 表 后 连续 元 素 的 

中 点 ， 那 么 我 们 的 任务 融 是 从 这 个 N-1 个 候选 分 割 冰 值 点 中 选 出 一 个 ， 使 得 前 面 提 到 的 信息 论 
标准 最 大 。 举 个 例子 ， 对 play 数 据 集 ， 我 们 来 处 理 温 度 属性 ， 来 选择 合 运 的 阐 值 。 站 先 按照 温 
度 大 小 对 对 应 样本 进行 排序 如 下 : 







64 6 6 6 OO ja R Ĥb O U N K 


Yes Ne Yes Yes Yes Hoj No Yes Yes Yes Ho Yes _ Yes No 


ABA FAB SA 13-N y a Ae BGR, Lb AMmiddle[64,65], middle[65,68] 
a, middle[83,85]. BARRIA 2DE? 应 该 是 middle[71,72]， 如 上 图 中 红线 所 示 。 
为 什么 呢 ? 如 下 计算 : 


=e Eg.: temperature < 71.5: yes/4, nolz 
temperature > 71.5: yes/5, no/3 


a — Info([4,2],[5,3]) = 6/14 info([4,2]) + 8/14 info([5,3]) = 0,939 bits 





通过 上 述 计 算 方式 ，0.939 是 最 大 的 ， 因 此 测试 的 增益 是 最 小 的 。 (MARE eA N ARE AI A 
是 成 反比 的 ， 这 个 从 后 面 的 公式 可 以 很 清楚 的 看 到 ) 。 根 据 上 面 的 挡 述 ， 我 们 需要 对 每 个 候 
ANEA AATE MANTA RSI RHA, BRA AN-DRBm Ot ime 
RPREMSMEIDMRTA) o BECAME? DAJ, MRE. BRESAR H, 




























如 下 图 : 
Value 64) 65 | 66 a FO |?F1 iz | ee 75 75| | $i a | 85 
class Yee Ho!) Yes Yes Yee | Ho Ho | Y [ay ges Yes | Ho | Yes ‘Yes) Ho 


ZA ANAC RAD Siam, MIRO Mix, temiddle[72,75] (红线 所 示 ) 
这 个 分 割 点 ，72,75 属 于 同一 个 类 ， 这 样 的 分 割 点 是 不 可 能 有 信息 增益 的 。 (把 同一 个 类 分 成 


性 ) 

哪个 属性 是 最 佳 的 分 类 属性 ? 

信息 论 标准 有 两 种 ， 一 种 是 增益 ， 一 种 是 增益 比 。 
首先 来 看 看 增益 Gain 的 计算 


为 了 精确 地 定义 信息 增益 ， 我 们 先 定义 信息 论 中 广泛 使 用 的 一 个 度量 标准 ， 称 为 炳 
(entropy) ， 它 刻画 了 任意 样 例 集 的 纯度 (purity) 。 给 定 包含 关于 某 个 目标 概念 的 正 反 样 例 
BY 4e PISES, ARASH tix Sth RPWDRAIH : 


Entropy(Sp=/=ps-logypre= ip)! logs 


上 述 公 坏 中 ，p+ 代 表 正 样 例 ， 比 如 在 本 文 开 头 第 二 个 例子 中 p+ 则 意味 看 去 打 羽 毛 球 ， 而 p- 则 
代表 反 样 例 ， 不 去 打球 。 


举例 来 说 ， 假 设 S 是 一 个 天 于 布尔 构 念 的 有 14 个 样 例 的 集合 ， 它 已 括 9 个 正 例 和 5 个 反例 (我 们 
采用 记号 [9+，5-] 来 概括 这 样 的 数据 样 例 ) ， 那 么 S 相 对 于 这 个 布尔 样 例 的 炳 为 : 


Entropy ([9+, 5-]) =- (9/14) log2 (9/14) - (5/14) log2 (5/14) =0.940, 


上 述 公 式 的 值 为 0.940。 它 的 信息 论 含义 就 是 我 要 想 把 Play ? 这 个 信息 传递 给 别人 话 ， 平 均 来 
讲 我 至 少 需要 0.940 个 bit 来 传递 这 个 信息 。C4.5 的 目标 就 是 经 过 分 类 来 减 小 这 个 业 。 那 么 我 们 
来 依次 考虑 各 个 属性 测试 ， 通 过 茶 一 属性 测试 我 们 将 样本 分 成 了 几 个 子 集 ， 这 使 得 祥 本 乏 洒 
RSA, PAWSBERDT. SPRANADSMER NEB WANK. 


信息 增益 Gain(S,A) 定 义 


已 经 有 了 炳 作为 衡量 训练 样 例 集合 纯度 的 标准 ， 现 在 可 以 定义 属性 分 类 训练 数据 的 效力 的 度 
量 标准 。 这 个 标准 被 称 为 “信息 增益 (information gain) ”。 简 单 的 说 ， 一 个 属性 的 信息 增益 就 
是 由 于 使 用 这 个 属性 分 割 样 例 而 导致 的 期 望 六 降 低 ( 或 者 说 ， 样 本 按照 某 属 性 划分 时 造成 灶 减 
少 的 期 望 )。 更 精确 地 讲 ， 一 个 属性 A 相对 样 例 集合 S 的 信息 增益 Gain(S, 人 A) 人 被 定义 为 : 

Gain (S, A) = Entropy (S)- >. La lEntropy (S,) 


rer Pe] 


其 中 Values(A) 是 属性 A 所 有 可 能 值 的 集合 ， 是 S 中 属性 A 的 值 为 v 的 子 集 。 换 句 话 来 讲 ， 
Gain(S,A) 是 由 于 给 定 属性 A 的 值 而 得 到 的 关于 目标 范 数 值 的 信息 。 当 对 S 的 一 个 任意 成 员 的 目 
标 值 编码 时 ，Gain(S,A) 的 值 是 在 知道 属性 A 的 值 后 可 以 节省 的 二 进 制 位 数 。 


它 的 实质 是 把 数据 集 D 根 据 某 一 属性 测试 分 成 v 个 子 集 ， 这 使 得 数据 集 S 变 得 有 序 ， 使 得 数据 集 
SHENI. DARN Mea TFA A BA, it AK SE 
Gain(Outlook)=0.940-0.694=0.246, Gain(Windy)=0.940-0.892=0.048.... 


可 以 得 到 第 一 个 测试 属性 是 Outlook。 需 要 注意 的 是 ， 属 性 测试 是 从 数据 集中 包含 的 所 有 属性 
组 成 的 候选 属性 中 选择 出 来 的 。 对 于 所 在 节 点 到 根 节 点 的 路 径 上 所 包含 的 属性 (我们 称 之 为 
继承 属性 ) , ARRPATRA DSA ENN Mem e0, AUX PRK CET DS K, 
AYA AM ie 2 B ME FA ll BR 3X ATE. 


到 这 里 似乎 一 切 都 很 完美 ， 增 益 这 个 指标 非常 好 ， 但 是 其 实 增益 这 个 指标 有 一 个 缺点 。 我 们 

来 考虑 play 数 据 集中 的 Day 这 个 属性 (我 们 假设 它 是 一 个 真 属性 ， 实 际 上 很 可 能 大 家 不 会 把 他 
当做 属性 ) ，Day 有 14 个 不 同 的 值 ， 那 么 Day 的 属性 测试 节点 就 会 有 14 个 分 支 ， 很 显然 每 个 分 
支 其 实 都 覆盖 了 一 个 “ 纯 " 数 据 集 (所 谓 “ 纯 "， 指 的 就 是 所 履 盖 的 数据 集 都 属于 同一 个 类 ) , AB 
么 綦 增益 显然 就 是 最 大 的 ， 那 么 Day 就 默认 得 作为 第 一 个 属性 。 之 所 以 出 现 这 样 的 情况 ， 是 
因为 增益 这 个 指标 天 然 得 偏向 于 选择 那些 分 支 比较 多 的 属性 ， 也 就 是 那些 具有 的 值 比较 多 的 

那些 属性 。 这 种 偏向 性 使 我 们 希望 克服 的 ， 我 们 希望 公正 地 评价 所 有 的 属性 。 因 此 又 一 个 指 

标 被 提出 来 了 Gain Ratio- 增 益 比 。 


C4.5 算 法 之 信息 增益 率 


增益 比率 度量 是 用 前 面 的 增益 度量 Gain(S，A) 和 分 裂 信 息 度 量 Splitlnformation(S，A) 来 共同 
定义 的 ， 如 下 所 示 : 


Gainkatia.s,A)= a 
splitinformation.s A} 
其 中 ， 分 有 裂 信息 度量 被 定义 为 (分 裂 信 息 用 来 衡量 属性 分 裂 数据 的 广度 和 均匀 ) : 


aoe Saeed 3. 
Splitinformantion.s,A)= pie Og 
| 


其 中 S1 到 Sc 是 c 个 值 的 属性 和 A 分割 S 而 形成 的 c 个 样 例子 集 。 分 裂 信 息 实 际 上 就 是 S 关 于 属性 和 A 
EAA SERDAR AA, GRERNRA SCSKRF SDAIN WES MWA HA 
r BIERS AAI o 

通过 计算 我 们 很 容易 得 到 GainRatio(Outlook)=0.246/1.577=0.156。 增 益 比 实际 上 就 是 对 增益 
进行 了 为 一 化 ， 这 样 就 吉 鲍 了 指标 偏向 分 支 多 的 属性 的 倾向 。 

决策 树 能 够 帮助 我 们 对 新 出 现 的 样本 进行 分 类 ， 但 还 有 一 些 问题 它 不 能 很 好 得 解决 。 比 如 我 
们 想 知 道 对 于 最 终 的 分 类 ， 哪 个 属性 的 贡献 更 大 ?能 否 用 一 种 比较 简洁 的 规则 来 区 分 样本 属 


A A 


于 哪个 类 ? 等 等 。 


C4.5 算 法 的 改进 : 


用 信息 增益 率 来 选择 属性 。 


在 树 构造 过 程 中 进行 剪 校 ， 在 构造 决策 树 的 时 候 ， 那 些 挂 荐 几 个 元 素 的 节点 ， 不 考虑 最 好 ， 
不 然 容易 导致 overfitting。 


对 非 离 散 数 据 也 能 处 理 。 
能 够 对 不 完整 数据 进行 处理 。 
RRA AYES 
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细 而 庞大 ， 每 个 属性 都 被 详细 地 加 以 考虑 ， 决 策 树 的 树叶 节点 所 履 盖 的 训练 样本 都 是 "“ 纯 "的 。 
因此 用 这 个 决策 树 来 对 训练 样本 进行 分 类 的 话 ， 你 会 发 现 对 于 训练 样本 而 言 ， 这 个 树 表现 堪 
称 完美 ， 它 可 以 100% 完 美 正 确 得 对 训练 样本 集中 的 样本 进行 分 类 (因为 决策 树 本 身 就 是 
100% 完 美 拟 合 训练 样本 的 产物 ) 。 但 是 ， 这 会 带 来 一 个 问题 ， 如 果 训 练 样本 中 已 含 了 一 些 错 
误 ， 按 照 前 面 的 算法 ， 这 些 错误 也 会 100% 一 点 不 留 得 被 决策 树 学 习 了 ， 这 就 是 “过 拟 合 ”。 
C4.5 的 缔造 者 昆 兰 教授 很 时 就 发 现 了 这 个 问题 ， 他 作 过 一 个 试验 ， 在 某 一 个 数据 集中 ， 过 拟 
合 的 决策 树 的 错误 率 比 一 个 经 过 简化 了 的 决策 树 的 错误 率 要 高 。 那 么 现在 的 问题 融 来 了 ， 如 
何在 原生 的 过 拟 合 决 策 树 的 基础 上 ， 通 过 剪 核 生 成 一 个 简化 了 的 决策 树 ? 


1、 第 一 种 方法 ， 也 是 最 简单 的 方法 ， 称 之 为 基于 误 判 的 剪 核 。 这 个 思路 很 直接 ， 完 全 的 决策 
树 不 是 过 度 拟 合 么 ， 我 册 搞 一 个 测试 数据 集 来 纠正 它 。 对 于 完全 决策 树 中 的 每 一 个 非 叶子 节 
点 的 子 树 ， 我 们 尝试 看 把 它 人 替换 成 一 个 叶子 节 和 点， 该 叶子 节点 的 类 ARNT Meal 
样本 中 存在 最 多 的 那个 类 来 代替 ， 这 样 就 产生 了 一 个 简化 决策 树 ， 然 后 比较 这 两 个 决策 树 在 
测试 数据 集中 的 表现 ， 如 果 简 化 决策 树 在 测试 数据 集中 的 错误 比较 少 ， 并 且 该 子 树 里 面 没有 
包含 另外 一 个 具有 类 似 特性 的 子 树 〈 所 谓 类 似 的 特性 ， 指 的 就 是 把 子 树 蔡 换 成 叶子 节点 后 ， 

其 测试 数据 集 误 判 率 降低 的 特性 ) ， 那 么 该 子 树 融 可 以 昔 换 成 叶子 节点 。 该 算法 以 bottom-up 
的 方式 通 历 所 有 的 子 树 ， 直 至 没有 任何 子 树 可 以 蔡 换 使 得 测试 数据 集 的 表现 得 以 改进 时 ， 算 
法 就 可 以 终止 。 


2、 第 一 种 方法 很 直接 ， 但 是 需要 一 个 额外 的 测试 效 据 集 ， 能 不 能 不 要 这 个 额外 的 数据 集 呢 ? 
为 了 解决 这 个 问题 ， 于 是 融 提 出 了 翡 观 和 剪 核 。 该 方法 甬 术 的 依据 是 训练 样本 集中 的 样本 误 判 
率 。 我 们 知道 一 颗 分 类 树 的 每 个 节点 都 履 生 了 一 个 样本 集 ， 根 据 算法 这 些 修 覆 重 的 样本 集 往 
往 都 有 一 定 的 误 判 率 ， 因 为 如 果 节 点 覆 盖 的 样本 集 的 个 数 小 于 一 定 的 贱 值 ， 那 么 这 个 节操 吏 
会 变 成 叶子 节 操 ， 所 以 叶子 节点 会 有 一 定 的 误 判 率 。 而 每 个 节点 都 会 包含 至 少 一 个 的 叶子 节 
点 ， 所 以 每 个 节点 也 都 会 有 一 定 的 误 判 率 。 翡 观 剪 校 就 是 递 汶 得 估算 每 个 内 部 节点 所 履 盖 样 
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连续 值 属性 的 改进 


相对 于 那些 离散 值 属性 ， 分 类 树 算法 倾 同 于 选择 那些 连续 值 属性 ， 因 为 连续 值 属性 会 有 更 多 
的 分 文 ， 炳 增益 也 最 大 。 算 法 需要 克服 这 种 倾 则 ， 我 们 利用 增益 率 来 克服 这 种 倾向 。 增 益 率 
也 可 以 用 来 克服 连续 值 属性 倾 同 。 增 益 率 作为 选择 属性 的 依据 克服 连续 值 属性 倾 同 ， 这 是 没 
有 问题 的 。 但 是 如 果 利 用 增益 率 来 选择 连续 值 属 性 的 分 界 点 ， 会 导致 一 些 副作用 。 分 界 点 将 
样本 分 成 两 个 部 分 ， 这 两 个 部 分 的 样本 个 数 之 比 也 会 影响 增益 率 。 根 据 增益 率 公 式 ， 我 们 可 
以 发 现 ， 当 分 界 点 能 够 把 样本 分 成 数量 相等 的 两 个 子 集 时 (我 们 称 此 时 的 分 界 点 为 等 分 分 界 
m) ， 增 益 率 的 抑制 会 彼 最 大 化 ， 因 此 等 分 分 界 点 被 过 分 抑制 了 。 子 集 样本 个 数 能 够 影响 分 
界 各 ， 显 然 不 合理 。 因 此 在 决定 分 界 点 是 还 是 采用 增益 这 个 指标 ， 而 选择 属性 的 时 候 才 使 用 
增益 率 这 个 指标 。 这 个 改进 能 够 很 好 得 抑制 连续 值 属性 的 倾 同 。 当 然 还 有 其 它 方法 也 可 以 所 
制 这 种 倾向 ， 比 如 MDL。 


义理 缺失 属性 


如 果 有 些 训练 样本 或 者 待 分 类 样本 缺失 了 一 些 属性 值 ， 那 么 该 如 何 处 理 ? 要 解决 这 个 问题 ， 
需要 考虑 3 个 问题 : 


i) 当 开 始 决 定 选择 哪个 属性 用 来 进行 分 支 时 ， 如 果 有 些 训练 样本 缺失 了 某 些 属性 值 时 该 怎么 
办 ? 


i 一 个 属性 已 被 选择 ， 那 么 在 决定 分 支 的 时 候 如 果 有 些 样 本 缺失 了 该 属性 该 如 何 处 理 ? 


i 刘 当 决 策 树 已 经 生成 ， 但 符 分 类 的 样本 缺失 了 有 某 些 属性 ， 这 些 属性 该 如 何 处 理 ? 针对 这 三 个 
问题 ， 昆 兰 提出 了 一 系列 解决 的 思路 和 方法 。 


对 于 问题 ), 计 算 属 性 a 的 增益 或 者 增益 率 时 ， 如 果 有 些 样 本 没有 属性 a， 那 么 可 以 有 这 么 几 种 
处 理 方式 : 


(1) 忽 上 略 这 些 缺 失 属 性 a 的 样本 。 
(2) 给 缺失 属性 a 的 样本 赋予 属性 a 一 个 均值 或 者 最 彰 用 的 的 值 。 


(3) 计 算 增 益 或 者 增益 率 时 根据 缺失 属性 样本 个 数 所 占 的 比率 对 增益 /增益 率 进行 相应 的 “ 打 
折 ”。 


(4) 根 据 其 他 未 知 的 属性 想 办 法 把 这 些 样本 缺失 的 属性 补 全 。 对 于 问题 ， 当 属性 a 已 经 做 选 
择 ， 该 对 样本 进行 分 支 的 时 候 ， 如 果 有 些 样 本 缺失 了 属性 a, 那 么 : 


(1) 忽 上 略 这 些 样 本 。 
(2) 把 这 些 样 本 的 属性 a 赋予 一 个 均值 或 者 最 党 出 现 的 值 ， 然 后 再 对 他 们 进行 处 理 。 


(3) 把 这 些 属 性 缺失 样本 ， 按 照 具 有 属性 a 的 样本 被 划分 成 的 子 集 样本 个 效 的 相对 比率 ， 分 配 到 
各 个 子 集 中 去 。 至 于 哪些 缺失 的 样本 梓 划 分 到 子 集 1， 哪 些 彼 划分 到 子 集 2， 这 个 没有 一 定 的 
准则 ， 可 以 随机 而 动 。(A) 把 属性 缺失 样本 分 配给 所 有 的 子 集 ， 也 融 是 说 每 个 子 集 都 有 这 些 属 
性 缺失 样本 。 


(3) 单 独 为 属性 缺失 的 样本 划分 一 个 分 文子 集 。 


(4) 对 于 缺失 属性 a 的 样本 ， 尝 试 着 根据 其 他 属性 给 他 分 配 一 个 属性 a 的 值 ， 然 后 继续 处 理 将 其 
划分 到 相应 的 子 集 。 对 于 问题 池 ， 对 于 一 个 缺失 属性 a 的 待 分 类 样本 ， 有 这 么 几 种 选择 : 


(1) 如 果 有 单独 的 确实 分 支 ， 依 据 此 分 支 。 
(2) 把 待 分 类 的 祥 本 的 属性 a 值 分 配 一 个 最 常 出 现 的 a 的 属性 值 ， 然 后 进行 分 支 预测 。 
(3) 根 据 其 他 属性 为 该 待 分 类 样本 填充 一 个 属性 a 值 ， 然 后 进行 分 支 处 理 。 


(4) 在 决策 树 中 属性 a 节 点 的 分 文 上 ， 通 万 属性 a 节 点 的 所 有 分 文 ， 探 索 可 能 所 有 的 分 类 结果 ， 
然后 把 这 些 分 类 结果 结合 起 来 一 起 考虑 ， 按 照 概 率 决 定 一 个 分 类 。 


(5) 符 分 类 样本 在 到 达 属 性 a 节点 时 束 终 止 分 类 ， 然 后 根据 此 时 a 节 扣 所 枚 芒 的 叶子 节点 类 别 状 
况 为 其 分 配 一 个 发 生 概 率 最 高 的 类 。 


推理 规则 


C4.5 决 策 树 能 够 根据 决策 树 生成 一 系列 规则 集 , 我 们 可 以 把 一 颗 决 策 树 看 成 一 系列 规则 的 组 
合 。 一 个 规则 对 应 着 从 根 节 点 到 叶子 节点 的 路 径 ， 该 规则 的 条 件 是 路 径 上 的 条 件 ， 结 果 是 叶 
子 节点 的 类 别 。C4.5 首 先 根据 决策 树 的 每 个 叶子 节点 生成 一 个 规则 集 ， 对 于 规则 集中 的 每 条 
规则 ， 算 法 利用 “爬山 "搜索 来 党 试 是 否 有 条 件 可 以 移 除 ， 由 于 移 除 一 个 条 件 和 剪 梳 一 个 内 部 节 
点 本 质 上 是 一 样 的 ， 因 此 前 面 提 到 的 翡 观 剪 术 算 法 也 被 用 在 这 里 进行 规则 简化 。MDL 准 则 在 
这 里 也 可 以 用 来 衡量 对 规则 进行 编码 的 信息 量 和 对 潜在 的 规则 进行 排序 。 简 化 后 的 规则 数目 
要 远 远 小 于 决策 树 的 叶子 节点 数 。 根 据 简化 后 的 规则 集 是 无 法 重 构 原 来 的 决策 树 的 。 规 则 集 
相 比 决策 树 而 言 更 具有 可 操作 性 ， 因 此 在 很 多 情况 下 我 们 需要 从 决策 树 中 推理 出 规则 集 。 
C4.5 有 个 缺点 融 是 如 果 数 据 集 增 大 了 一 点 ， 那 么 学 习 时 间 会 有 一 个 迅速 地 增长 。 


数据 挖掘 十 大 算法 --K- 均 值 涌 类 算法 


来 源 : http://blog.csdn.net/u011067360/article/details/24383051 
一 、 相 异 度 计算 


在 正式 讨论 聚 类 有 表 ， 我 们 要 先 弄 清楚 一 个 问题 : 如 何 定 量 计算 两 个 可 比较 元 素 间 的 相 异 度 。 
用 通俗 的 话说 ， 相 强度 就 是 两 个 东西 差别 有 和 多大， 例如 人 类 与 章鱼 的 相 异 度 明 显 大 于 人 类 往 
黑猩猩 的 相 异 度 ， 这 是 能 我 们 直观 感受 到 的 。 但 是 ， 计 算 机 没有 这 种 直观 感受 能 力 ， 我 们 必 
须 对 相 腊 度 在 数学 上 进行 定量 定义 。 


yeh S {trtne Tah Y = {yY Yn},， 其 中 X，Y 是 两 个 元 素 项 ， 各 自 具有 n 个 可 度 
量 特征 属性 ， 那 么 X 和 Y 的 相 异 度 定 义 为 : 

人 人) 个 帮 ， 其 中 R 为 实数 域 。 也 就 是 说 相 异 度 是 两 个 元 素 对 实数 域 的 一 个 
上 映射， 所 映射 的 实数 定量 表示 两 个 元 素 的 相 异 度 。 

下 面 介绍 不 同类 型 变量 相 异 度 计算 方法 。 

1、 标 量 

(1) 标量 也 束 是 无 方向 意义 的 数字 ， 也 叫 标 度 变量 。 现 在 先 考虑 元 素 的 所 有 特征 属性 都 是 标 
量 的 情况 。 例 如 ， 计 算 X={2,1,102} 和 Y={1,3,2} 的 相 异 度 。 一 种 很 自然 的 想法 是 用 两 者 的 欧 几 
里 得 距离 来 作为 相 异 度 ， 欧 几 里 得 距离 的 定义 如 下 : 


dX. Y) = Vv (a T yai? +S 'j3)7 里.Up Ey H Yn}? 


其 意义 丈 是 两 个 元 乘 在 欧 氏 空间 中 的 集合 距离 ， 因 为 其 直观 易 懂 且 可 解释 性 强 ， 被 广泛 用 于 
标识 两 个 标量 元 素 的 相 异 度 。 将 上 面 两 个 示例 数据 代入 公式 ， 可 得 两 者 的 欧 氏 距离 为 : 


di X.Y) = y (2 -Hiit (1908 t ERN? ned)? is LAA 


除 欧 氏 距离 外 ， 常 用 作 度 量 标 量 相 异 度 的 还 有 曼哈顿 距离 和 闵可夫 斯 基 距 离 ， 两 者 定义 如 
BR: 

(2) 曼哈顿 距离 : 

dX. YI = ey 7 yıl + Ea i Yal T eg b fr — Yn 


(3) 闵可夫 斯 基 距 离 : 


(4) 皮尔 进 条 数 (Pearson Correlation Coefficient) 
两 个 变量 之 间 的 皮尔 逊 相关 系数 定义 为 两 个 变量 之 间 的 协 方差 和 标准 舌 的 丙 . 


cov(X,¥) _ EIX po)lY — py)] 


PX.Y Fi An 
\ yoy ONoy 


(A, EXMSRS kia, DAH, DAMS HEH, Ef [X-ux] [Y-uy]} 称 为 随机 变量 X 
与 Y 的 协 方差 ， 记 为 Cov(X,Y)， 即 Cov(X,Y) = E{ [X-ux] [Y-ux]}， 而 两 个 变量 之 间 的 协 方差 和 标 
准 差 的 商 则 称 为 随机 变量 X 与 Y 的 相关 系数 ， 记 为 As 


欧 氏 距离 和 曼哈顿 距离 可 以 看 做 是 闵可夫 斯 基 距 离 在 pc=2 和 p=1 下 的 特例 。 另外 这 三 种 距离 都 
可 以 加 权 ， 这 个 很 容易 理解 。 


下 面 要 说 一 下 标量 的 规格 化 问题 。 上 面 这 样 计算 相 寞 度 的 方式 有 一 点 问题 ， 束 是 取 值 沁 围 大 
的 属性 对 距离 的 影响 高 于 取 值 沁 围 小 的 属性 。 例 如 上 述 例 子 中 第 三 个 属性 的 取 值 跨度 远大 于 
前 两 个 ， 这 样 不 利于 真实 反映 真实 的 相 异 度 ， 为 了 解决 这 个 问题 ， 一 般 要 对 属性 值 进行 规格 
化 。 


所 谓 规 格 化 融 是 将 各 个 属性 值 按 比 例 映射 到 相同 的 取 值 区 间 ， 这 样 是 为 了 平衡 各 个 属性 对 距 
离 的 影响。 通常 料 各 个 属性 均 映射 到 [0,1] 区 间 ， 了 映射 公式 为 : 

yn“ min a;) 

a max(a;) — min(a;) 

其 中 max(ai) 和 min(ai) 表 示 所 有 元 篆 项 中 第 i 个 属性 的 最 大 值 和 最 小 值 。 例 如 ， 将 示例 中 的 元 素 
规格 化 到 [0,1] 区 间 后 ， 就 变 成 了 X={1,0,1}，Y={0,1,0}， 重 新 计算 欧 氏 距离 约 为 1.732。 


所 谓 二 元 变量 是 只 能 取 0 和 1 两 种 值 变 量 ， 有 扣 类 似 布尔 值 ， 通 弟 用 来 标识 是 或 不 是 这 种 二 值 
属性 。 对 于 二 元 变量 ， 上 一 节 提 到 的 距离 不 能 很 好 标识 其 相 异 度 ， 我 们 需要 一 种 更 适合 的 标 
识 。 一 种 弟 用 的 方法 是 用 元 素 相 同 序 位 同 值 属 性 的 比例 来 标识 其 相 寞 麦 。 


设 有 X={1,0,0,0,1,0,1,1})，Y={0,0,0,1,1,1,1, 们 ， 可 以 看 到 ， 两 个 元 素 第 2、3、5、7 和 8 个 属性 
取 值 相同 ， 而 第 1、4 和 6 个 取 值 不 同 ， 那 么 相 异 度 可 以 标识 为 3/8=0.375。 一 般 的 ， 对 于 二 元 
交 量 ， 相 异 度 可 用 “ 取 值 不 同 的 同位 属性 数 / 单 个 元 素 的 属性 位 数 " 标 识 。 


上 面 所 说 的 相 异 度 应 该 叫做 对 称 二 元 相 异 度 。 现 实 中 还 有 一 种 情况 ， 就 是 我 们 只 关心 两 者 都 

取 1 的 情况 ， 而 认为 两 者 都 取 0 的 属性 并 不 意味 着 两 者 更 相似 。 例 如 在 根据 病情 对 病人 聚 类 

时 ， 如 果 两 个 人 都 患 有 肺癌 ， 我 们 认为 两 个 人 增强 了 相似 度 ， 但 如 果 两 个 人 都 没 患 肺癌 ， 并 

~ 觉得 这 加 强 了 两 人 的 相似 性 ， 在 这 种 情况 下 ， 改 用 “ 取 值 不 同 的 同位 属性 数 /( 单 个 元 素 的 属性 
位 数 - 同 取 0 的 位 数 )" 来 标识 相 异 度 ， 这 叫做 非 对 称 二 元 相 异 度 。 如 果 用 1 减 去 非 对 称 二 元 相 异 

度 ， 则 得 到 非 对 称 二 元 相似 度 ， 也 叫 Jaccard 系 数 ， 是 一 个 非常 重要 的 概念 。 


分 类 变量 是 二 元 变量 的 推广 ， 类 似 于 程序 中 的 枚 举 变 量 ， 但 各 个 值 没有 效 字 或 序数 意义 ， 如 
颜色 、 民 族 等 等 ， 对 于 分 类 变量 ， 用 “ 取 值 不 同 的 同位 属性 数 / 单 个 元 素 的 全 部 属性 数 " 来 标识 
其 相 异 度 。 


序数 变量 是 具有 序数 意义 的 分 类 变量 ， 通 常 可 以 按照 一 定 顺 序 意义 排列 ， 如 冠军 、 亚 军 和 季 
军 。 对 于 序数 变量 ， 一 般 为 每 个 值 分 配 一 个 数 ， 叫 做 这 个 值 的 秩 ， 然 后 以 秩 代 蔡 原 值 当做 标 
量 属性 计算 相 异 度 。 
5、 向 量 
对 于 向 量 ， 由 于 它 不 仅 有 大 小 而 且 有 方向 ， 所 以 闵可夫 斯 基 距 离 不 是 度量 其 相 异 度 的 好 办 
法 ， 一 种 流行 的 做 法 是 用 两 个 向 量 的 余弦 度量 ， 其 度量 公式 为 : 
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所 谓 聚 类 问题 ， 就 是 给 定 一 个 元 素 集 合 D， 其 中 每 个 元 秦 具 有 nn 个 可 观察 属性 ， 使 用 某 种 算法 
将 D 划 分 成 kK 个 子 集 ， 要 求 每 个 子 集 内 部 的 元 素 之 间 相 异 度 尽 可 能 低 ， 而 不 同 子 集 的 元 素 相 异 
度 尽 可 能 高 。 其 中 每 个 子 集 叫 做 一 个 族 。 与 分 类 不 同 ， 分 类 是 示例 式 学 习 ， 要 求 分 类 前 明确 
各 个 类 别 ， 并 断言 每 个 元 素 映 射 到 一 个 类 别 ， 而 聚 类 是 观察 陈 学 习 ， 在 聚 类 前 可 以 不 知道 类 
别 其 至 不 给 定 类 别 数量 ， 是 无 监督 学 习 的 一 种 。 目 前 聚 类 广泛 应 用 于 统计 学 、 生 物 学 、 数 据 
库 技术 和 市 场 营销 等 领域 ， 相 应 的 算法 也 非常 的 多 。 本 文 仅 介 绍 一 种 最 简单 的 聚 类 算法 
均值 (k-means) 算法 。 


1、 算 法 简介 


k 





k-means 算法 ， 也 侯 称 为 k- 平 均 或 k- 均 值 ， 是 一 种 得 到 最 广泛 使 用 的 聚 类 算法 。 它 是 将 各 个 聚 
类 子 集 内 的 所 有 数据 样本 的 均值 作为 该 聚 类 的 代表 点 ， 


算法 的 主要 思想 是 通过 达 代 过 程 把 数据 集 划 分 为 不 同 的 类 别 ， 使 得 评价 聚 类 性 能 的 准则 函数 
达到 最 优 ， 从 而 使 生成 的 每 个 聚 类 内 紧 疾 ， 类 间 独 立 。 这 一 算法 不 适合 处 理 离 效 型 属性 ， 但 
是 对 于 连续 型 具有 和 较 好 的 聚 类 效果 。 


2、 算 法 摘 述 

1、 为 中 心 向 量 c1, c2, ..., ck 初始 化 k 个 种 子 
2、 分 组 : 

(1) 将 样本 分 配给 距离 其 最 近 的 中 心 同 量 


(2) 由 这 些 样 本 构造 不 相交 (non-overlapping ) 的 聚 类 


3, fA PUD: 

用 各 个 聚 类 的 中 心 向 量 作为 新 的 中 心 
4、 重 复 分 组 和 确定 中 心 的 步骤 ， 直 至 算法 收敛 。 
3、 算 法 k-means 算法 
输入 : 簇 的 数目 k 和 包含 hn 个 对 象 的 数据 库 。 
输出 : kN GR, (EAE AIRE ER). 
算法 步骤 : 
1. 为 每 个 聚 类 确定 一 个 初始 聚 类 中 心 ， 这 样 就 有 K 个 初始 聚 类 中 心 。 
2. 将 样本 集中 的 样本 按照 最 小 距离 原则 分 配 到 最 邻近 聚 类 
3. 使 用 每 个 聚 类 中 的 样本 均值 作为 新 的 聚 类 中 心 。 
4.627 2.318 BRE POR SE. 
5. 结 束 ， 得 到 K 个 聚 类 
PS 


、 将 样本 分 配给 距离 它们 最 近 的 中 心 向 量 ， 并 使 目标 函 数值 减 小 
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4、 划 分 聚 类 方法 对 数据 集 进 行 聚 类 时 包括 如 下 


f; 








一 co i 
三 个 要 点 : 


(1) 选 定 某 种 距离 作为 数据 样本 间 的 相似 性 度量 


上 面 讲 到 ，k-means 聚 类 算法 不 适合 处 理 离散 型 属性 ， 对 连续 型 属性 比较 适合 。 因 此 在 计算 数 
据 样 本 之 间 的 距离 时 ， 可 以 根据 实际 需要 选择 欧式 距离 、 曼 哈 顿 距离 或 者 明 考 斯 距 离 中 的 一 
种 来 作为 算法 的 相似 性 度量 ， 其 中 最 常用 的 是 欧式 距离 。 下 面 我 再 给 大 家 具体 介绍 一 下 欧 陈 
距离 。 平 均值 


k= fx l= 125.0 total} 
假设 给 定 的 数据 集 z ) ，X 中 的 祥 


本 用 d 个 搞 述 属性 A1,A2...Ad 来 表示 ， 并 且 d 个 摘 述 属性 都 是 连续 型 属性 。 数 据 样 本 xi=(Xxi1,xi2， 
...Xid),xj=(xj1,xj2,.…..xjd) 其 中 ，xi1,xi2,...xid 和 xj1,xj2,...xjd 分 别 是 样本 xi 和 xj 对 应 d 个 描述 属性 
A1,A2,...Ad 的 具体 取 值 。 样 本 xi 和 xj 之 间 的 相似 度 通 常用 它们 之 间 的 距离 d(xi,xj) 来 表示 ， 距 离 
越 小 ， 样 本 xi 和 xj 越 相似 ， 差 异 度 越 小 ; 距离 越 大 ， 样 本 xi 和 Xj 越 不 相似 ， 差 异 度 越 大 。 


欧 陈 距离 公式 如 下 : 





(2) 选择 评价 聚 类 性 能 的 准则 回 数 

k-means 聚 类 算法 使 用 误差 平方 和 准则 函数 来 评价 聚 类 性 能 。 给 定数 据 集 X， 其 中 只 包含 摘 述 
属性 ， 不 包含 类 别 属性 。 假 设 X 包 含 k 个 聚 类 子 集 X1,X2,...XK ; 各 个 聚 类 子 集 中 的 样本 数量 分 
别 为 n1，n2,...,nk; 各 个 聚 类 子 集 的 均值 代表 点 (也 称 聚 类 中 心 ) 分 别 为 m1，m2,...,mk。 则 误 
FARMED AAT YH : 
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(3) 相似 度 的 计算 根据 一 个 族 中 对 象 的 平均 值 来 进行 。 

1) 将 所 有 对 象 随机 分 配 到 k 个 非 空 的 禾 中 。 

2) 计算 每 个 族 的 平均 值 ， 并 用 该 平均 值 代表 相应 的 族 。 

3) 根据 每 个 对 象 与 各 个 族 中 心 的 距离 ， 分 配给 最 近 的 族 。 

4) 然后 转 2) ， 重 新 计算 每 个 谍 的 平均 值 。 这 个 过 程 不 断 重 复 直 到 满足 东 个 准则 男 效 才 停止 


三 、 聚 类 例子 


数据 挖掘 十 大 算法 详解 





数据 对 象 集合 S 见 上 表 ， 作 为 一 个 聚 类 分 析 的 二 维 样本 ， 要 求 的 族 的 数量 k=2。 


(0.2) (0,0) a | Pere (ORE 才 = 0, 90,0) 
apeg AO, GOO) 为 初始 的 簇 中 心 ， 妈 Po (09) 


(2) 对 剩余 的 每 个 对 象 ， 根 据 其 与 各 个 簇 中 心 的 距离 ， 将 它 赋 给 最 近 的 入 


对 O3 : 


d(#,,0,) = j(0-1.5/ +(2 -0 =2.5 
d(#,,0,) = j(0-1.5/ +(0-of =1.5 


d(#,,0,) Ad _ 
显然 (Fa &) 5 A, 4) O3， 故 将 C2 分 配给 


对 于 O 〇 4: 





d(M,,0,)< d(M,,0,) 


-i 所 以 讲 O5 分 配给 C1 


k-means 


man, gag C T Oo 0s). 


计算 平方 误差 准则 ， 单 个 方差 为 


和 G ={0,.0,.0,,} 


E, =|(0- oF += 2} O25P (222225 m -0, -(02) 
E, =27.25 M,=0, =(0.0) 


haope Peel 2S 

(3) 计算 新 的 艇 的 中 心 。 

M, =((0+5)/2,(2+2)/2)=(2.5,2) 

M, =((041.5+5)/3:(0+ 0+ 0)/3)=(2.17.0) 
重复 (2) 和 (3) ， 得 到 O1 分 配给 C1 ; O02 分 配给 C2，0O3 分 配给 C2 ，O4 分 配给 C2，O5 分 

execs, _f . eis 

maci. ma, aag C1 CrO) 和 C2 = {03:03:04} 。 中 心 为 MO = (2.5.2) ， 
M „ ={2.17,0) 


单个 方差 分 别 为 

E, = \(0-2.5) + (2-2) | btts y (242) 42125 / eamas 
AFIRE : 

E = E, + E, =12.5+13.15 = 25.65 


APA aH, BRIAN, BAAR 1652.25~25.65, BAR), ATER RIAN 
中 ， 敌 中心 不 变 ， 所 以 停止 迭代 过 程 ， 算 法 停止 。 
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1、k-means 算 法 的 性 能 分 析 

= LRA : 

是 解决 聚 类 问题 的 一 种 经 典 算法 ， 简 单 、 快 速 。 


对 义理 大 数据 集 ， 该 算法 是 相对 可 伸缩 和 高 效率 的 。 因 为 它 的 复 杀 度 是 0 (n kt), 其 中 , n 是 所 
有 对 象 的 数目 , k 是 簇 的 数目 , t 是 迭代 的 次 数 。 通 党 k < <n 且 t < <n., 


当 结 果 族 是 密集 的 ， 而 族 和 与 艇 之 间 区 别 明 显 时 , 它 的 效果 较 好 。 


在 禾 的 平均 值 被 定义 的 情况 下 才能 使 用 ， 这 对 于 人 处理 符 号 属性 的 数据 不 适用 。 


必须 事先 给 出 k (要 生成 的 族 的 数目 ) ， 而 且 对 初 值 敏 感 ， 对 于 不 同 的 初始 值 ， 可 能 会 导致 不 
同 结 未 。 


它 对 于 “ 躁 声 " 和 孤立 点 数据 是 敏感 的 ， 少 量 的 该 类 数据 能 够 对 平均 值 产生 极 大 的 影响 。 
K-Means 算 法 对 于 不 同 的 切 始 值 ， 可 能 会 导致 不 同 结 果 。 解 决 方法 : 


1. 多 设置 一 些 不 同 的 初 值 ， 对 比 最 后 的 运算 结果 ) 一 家 到 结果 趋 于 稳定 结束 ， 上 比较 耗 时 和 浪费 


2. 很 多 时 候 ， 事 先 并 不 知道 给 定 的 数据 集 应 该 分 成 多 少 个 类 别 才 最 合 这 也 是 K-means 算 
法 的 一 个 不 足 。 有 的 算法 是 通过 类 的 自动 合并 和 分 裂 ， Bangsia K. 


2、k-means 算 法 的 改进 方法 





k-prototype 算 法 


k-Prototype 算 法 : 可 以 对 离散 与 数值 属性 两 种 混合 的 数据 进行 聚 类 ， 在 k-prototype 中 定义 了 
一 个 对 数值 与 离散 属性 都 计算 的 相 异 性 度量 标准 。 


K-Prototype 算 法 是 结合 K-Means 与 K-modes 算 法 ， 针 对 混合 属性 的 ， 解 决 2 个 核心 问题 如 下 : 


1. 度 量具 有 混合 属性 的 方法 是 ， 数 值 属性 采用 K-means 方 法 得 到 P1， 分 类 属性 采用 K-modes 
方法 P2， 那 么 D=P1+a*P2，a 是 权重 ， 如 果 觉 得 分 类 属性 重要 ， 则 增加 a， 否 则 减少 a，a=0 时 
即 只 有 数值 属性 


2. 更 新 一 个 艇 的 中 心 的 方法 ， 方 法 是 结合 K-Means 与 K-modes 的 更 新 方法 。 
3、k-means 算 法 的 改进 方法 k- 中 心 点 算法 





k- 中 心 点 算法 : k -means 算 法 对 于 孤立 点 是 敏感 的 。 为 了 解决 这 个 问题 ， 不 采用 族 中 的 平均 
值 作为 参照 点 ， 可 以 选用 和 族 中 位 置 最 中 心 的 对 象 ， 即 中 心 号 作为 参照 点 。 这 样 划 分 方法 仍然 
是 基于 最 小 化 所 有 对 象 与 其 参照 点 之 间 的 相 异 度 之 和 的 原则 来 执行 的 。 


Nlas se >) Sete HE - 3 A) WL(SVM) 


机 右 学 习 与 效 据 挖 掘 - 文 持 同 量 机 (SVM) (—) 


来 源 : http://blog.csdn.net/u011067360/article/details/24876849 


最 近 在 看 斯 坦 往 大 学 的 机 器 学 习 的 公开 课 ， 学 习 了 文 持 同 量 机 ， 再 结合 网 上 各 位 大 神 的 学 习 
经 验 总 结 了 自己 的 一 些 关 于 支持 向 量 机 知识 。 

一 、 什 么 是 支持 向 量 机 (SVM)? 

1、 支 持 向 量 机 (Support Vector Machine, BMAMASVM) 是 一 种 监督 式 学 习 的 方法 ， 可 广 
泛 地 应用 于 统计 分 类 以 及 回 为 分 析 。 支 持 向 量 机 属于 一 般 化 线性 分 类 器 ， 这 族 分 类 器 的 特点 
是 他 们 能 够 同时 最 小 化 经 验 误 焉 与 最 大 化 几何 边缘 区 ， 因 此 支持 向 量 机 也 被 称 为 最 大 边缘 区 
2、 文 持 向 量 机 将 向 量 映射 到 一 个 更 高 维 的 空间 里 ， 在 这 个 空间 里 建立 有 一 个 最 大 间隔 超 平 

面 。 在 分 开 数 据 的 超 平面 的 两 边 建 有 两 个 互相 平行 的 超 平面 ， 分 隔 超 平面 使 两 个 平行 超 平面 
的 距离 最 大 化 。 假 定 平行 超 平面 间 的 距离 或 差距 越 大 ， 分 类 器 的 总 误差 越 小 。 

3、 假 设 给 定 一 些 分 属于 两 类 的 2 维 点 ， 这 些 点 可 以 通过 直线 分 割 ， 我 们 要 找到 一 条 最 优 的 分 
割 线 ， 如 何 来 界定 一 个 超 平面 是 不 是 最 优 的 呢 ? 


如 下 图 : 





最 大 化 边 绿 


最 优 超 平面 


在 上 面 的 图 中 ，a 和 b 都 可 以 作为 分 类 超 平 面 ， 但 最 优 超 平面 只 有 一 个 ， 最 优 分 类 平面 使 间 陋 
最 大 化 。 那 是 不 是 某 条 直线 比 其 他 的 更 加 合适 呢 ? 我 们 可 以 赁 看 觉 来 定义 一 条 评价 下 线 好 坏 
的 标准 : 


距离 样本 太 近 的 直线 不 是 最 优 的 ， 因 为 这 样 的 直线 对 噪声 敏感 度 局 ， 泛 化 性 较 差 。 因此 我 们 
的 目标 是 找到 一 条 直线 (图 中 的 最 优 超 平面 ) ， 离 所 有 点 的 距离 最 远 。 Alt, SVM 算法 的 实 
质 是 找 出 一 个 能 够 料 某 个 值 最 大 化 的 超 平 面 ， 这 个 值 就 是 超 平面 离 所 有 训练 样本 的 最 小 路 
离 。 这 个 最 小 距离 用 SVM 术 语 来 说 叫做 间隔 (margin) 。 

二 、 如 何 计 算 最 优 超 平面 ? 

1、 线 性 分 类 : 

我 们 通常 希望 分 类 的 过 程 是 一 个 机 器 学 习 的 过 程 。 这 些 数据 点 并 不 需要 是 了 梭 “中 的 点 ， 而 可 以 
TFAAR 的 点 (一 个 超 平面 ， 在 二 维 空间 中 的 例子 就 是 一 条 直线 ) 。 我 们 希望 能 够 把 这 些 点 
通过 一 个 n-1 维 的 超 平 面 分 开 ， 通 党 这 个 被 称 为 线性 分 类 嚣 。 有 很 多 分 类 器 都 符合 这 个 要 求 ， 
但 是 我 们 还 希望 找到 分 类 最 佳 的 平面 ， 即 使 得 属于 两 个 不 同类 的 数据 点 间隔 最 大 的 那个 面 ， 
该 面 亦 称 为 最 大 间隔 超 平 面 。 如 果 我 们 能 够 找到 这 个 面 ， 那 么 这 个 分 类 器 就 称 为 最 大 间隔 分 
类 器 。 


我 们 从 下 面 一 个 图 开始 : 





中 间 那 条 线 是 wx + b =0， 我 们 强调 所 有 点 尽 可 能 地 远离 中 间 那 条 线 。 考 虑 上 面 3 个 点 A、B 和 
C。 从 图 中 我 们 可 以 确定 A 是 x 类 别 的， 然而 C 我 们 是 不 太 确 定 的 ，B 还 算 能 够 确定 。 这 样 我 们 
可 以 得 出 结论 ， 我 们 更 应 该 关心 靠近 中 间 分 割 线 的 点 ， 让 他 们 尽 可 能 地 远离 中 间 线 ， 而 不 是 
在 所 有 点 上 达到 最 优 。 因 为 那样 的 话 ， 要 使 得 一 部 分 点 靠近 中 间 线 来 换取 另外 一 部 分 点 更 加 
远离 中 间 线 。 同 时 这 个 所 谓 的 超 平面 的 的 确 把 这 两 种 不 同形 状 的 数据 点 分 隔 开 来 ， 在 超 平面 
一 边 的 数据 点 所 对 应 的 y 全 是 -1 ， 而 在 另 一 边 全 是 1 。 


我 们 可 以 令 分 类 国 数 : 
f(z) 一 也 +b 


显然 ， 如 果 f(x)=0 ， 那 么 x 是 位 于 超 平面 上 的 点 。 我 们 不 妨 要 求 对 于 所 有 满足 f(x)<0 的 点 ， 
其 对 应 的 =" y="" EF | 一 mn 而 = f(x)="">0 W) 对 应 y=1 的 数据 点 。 如 下 4 





Negative objects (y=-1) Positive objects (y=+1) 





最 优 超 平面 可 以 有 无 数 种 表达 方式 ， 即 通过 任意 的 缩放 w 和 b 。 习惯 上 我 们 使 用 以 下 方式 来 
表达 最 优 超 平面 


wfr +b =1 
式 中 X ARSE Lome, BAMA SSsINHASMRATYA : y(wx + b) = 
1, 


上 面 说 了 ， 我 们 全 两 类 的 点 分 别 为 +1, -1， 所 以 当 有 一 个 新 的 点 x 需要 预测 属于 哪个 分 类 的 时 
候 ， 我 们 用 sgn(f(x))， 融 可 以 预测 了 ，sgn 表 示 符 号 画 效 ， 当 f(x) > 0 的 时 候 ，sgn(f(x)) = +1, 
当 f(x) < 0 的 时 候 sgn(f(x)) = -1。 


通过 几何 学 的 知识 ， 我 们 知道 点 x 到 超 平面 (BB Bo) 的 距离 为 : 


wie+tb B fiz) 


“J et ag a aa a ae 
wl wl 


特别 的 ， 对 于 超 平面 , 表达 式 中 的 分 子 为 1， 因 此 支持 向 量 到 超 平面 的 距离 是 
distance support vectors 
|Iwl| 的 意思 是 w 的 二 泡 数 。 


刚才 我 们 介绍 了 间 隅 (margin), 这 里 表示 为 M, 它 的 取 值 是 最 近 距 离 的 2 倍 : 


M=2 / ||wl| 


最 大 化 这 个 式 子 等 价 于 最 小 化 ||wl|, 另外 由 于 ||wl| 是 一 个 单调 落 数 ， 我 们 可 以 对 其 加 入 平方 ， 
和 前 面 的 系数 ， 熟 悉 的 同学 应 该 很 容易 束 看 出 来 了 ， 这 个 式 子 是 为 了 方便 求 导 。 


最 后 最 大 化 M 转化 为 在 附加 限制 条 件 下 最 小 化 函数 : 





， I > 
max 一 me | w | 


wl 


max——, s.t.,y;(w/2;+ id ed | RO 
UO 


a. el 
这 是 一 个 拉 格 天 日 优化 问题 ， 可 以 通过 拉 格 天 日 乘 数 法 得 到 最 优 超 平面 的 权重 向 量 W 和 偏 置 b 


fe) 


L(w,6,a),= > hw |]? =>: TA GA Gan hb) =D 


PS 


1 AEA LikD X KAX) =w.xtb 〈w.x 表 示 w 与 X 的 内 积 ) 中 的 两 个 参数 w 和 b， 通 
俗 理解 的 话 W 是 法 向 量 ，b 是 截 距 ; 


2、 那 如 何 确定 w 和 b 呢 ? 答案 是 寻找 两 条 边界 端 或 极端 划分 直线 中 间 的 最 大 间隔 (之 所 以 要 寻 
最 大 间隔 是 为 了 能 更 好 的 划分 不 同类 的 点 ， 下 文 你 将 看 到 : 为 寻 最 大 间隔 ， 导 出 1/2||w|l^2， 
继而 引入 拉 格 明日 本 效 和 对 偶 变 量 a， 化 为 对 单一 因数 对 偶 变 量 a 的 求解 ， 当 然 ， 这 是 后 

话 ) ， 从 而 确定 最 终 的 最 大 间 隅 分 类 超 平面 hyper planefla # KR ; 


3. AmE RRA X KAX) = w.x + b 的 问题 转化 为 对 w，b 的 最 优化 问题 ， 最 终 化 为 对 偶 因 子 
的 求解 。 


支持 向 量 机 (SVM) (Z) -- 拉 格 明日 对 偶 
(Lagrange duality) 


来 源 : http://blog.csdn.net/u011067360/article/details/25215465 


ke YN 。 
jal JT . 


1、 在 之 前 我 们 把 要 寻找 最 优 的 分 割 超 平 面 的 问题 转化 为 带 有 一 系列 不 等 式 约束 的 优化 问题 。 
这 个 最 优化 问题 被 称 作 原 问题 。 我 们 不 会 直接 解 它 ， 而 是 把 它 转化 为 对 偶 问 题 进行 解决 。 


2、 为 了 使 问题 变 得 易于 人 处理， 我 们 的 方法 是 把 目标 琅 数 和 约束 全 部 融入 一 个 新 的 玉 数 ， 为 了 
使 问题 变 得 易于 人 处理， 我 们 的 方法 是 把 目标 芳 数 和 约束 全 部 融入 一 个 新 的 东 数 ， 即 拉 格 旭日 
阔 数 ， 再 通过 这 个 图 数 来 寻找 最 优点 。 即 拉 格 表 日 钞 数 ， 再 通过 这 个 罚 数 来 寻找 最 优 扣 。 


3、 约 束 条 件 可 以 分 成 不 寺 式 约束 条 件 和 等 式 约束 条 件 ， 只 有 等 式 约束 条 件 的 问题 我 们 在 高 等 
效 学 课程 中 已 经 学 习 过 了 ， 其 解决 方法 是 直接 将 等 陈 约 束 加 入 原 问题 构造 出 拉 格 明日 函数 ， 
然后 求 导 即 可 。 现 在 考虑 更 加 一 般 性 的 问题 : 带 不 等 陈 约 束 和 等 陈 约束 的 极 值 问题 如 何 构造 
拉 格 明日 本 数 求解 。 学 习 拉 格 明日 对 偶 原 理 重 要 的 是 理解 构造 所 得 的 原始 问题 和 原画 效 的 等 
价 性 ， 以 及 原始 问题 和 对 偶 问题 解 得 等 价 性 。 


回忆 一 下 之 前 得 到 的 目标 男 效 
ee T. T. a a OE 
min > wl” s-t. yi(w eee ee Se ea n 


SAR SAF. BOL KRHA] RSI RH, ARMERET RETRE 
机 的 对 偶 算 法 ， 这 样 做 的 优点 在 于 : 一 者 对 偶 问 题 往 往 更 容易 求解 ; 二 者 可 以 目 然 的 引入 核 
辆 效 ， 进 而 推广 到 非 线性 分 类 问题 。 
1、 我 们 下 看 下 面 的 一 个 式 子 
min, flw) 
st Ajfa)—D, i= l I, 
上 面 是 要 求解 的 目标 函数 及 其 条 件 。 我 们 可 以 得 到 拉 格 明日 公 陈 为 


L£(w, 3) = fiw) + > 3; hj (aw) 


i=] 


在 这 里 出 被 称 为 拉 格 表 日 算 子 。 


然后 分 别 对 w 和 求 偏 导 ， 使 得 俞 导数 等 于 0， 然 后 解 出 也 和 只 ; 


OL _,. HL _, 
au; ° 08 ` 

下 面 我 们 将 要 产生 一 个 既 有 等 式 又 有 不 等 式 条 件 限制 的 式 子 ， 我 们 可 以 叫做 原始 优化 问题 ， 
这 里 简单 介绍 下 拉 格 朗 日 对 偶 的 原理 。 如 下 式 子 : 


min, fiw) 
st. giw) <0, ¢=—1,..., k 


上 述 式 子 有 两 个 条 件 《等 陈 条 件 和 不 等 式 条 件 ) 


由 此 我 们 定义 一 般 化 的 拉 格 开 日 公式 
k l 
L£(w,a, 3) = flw) + > œigilw) + 2 Bihi(w). 
i=] i—i 


a BAY OFA BHR ABS, REST RRR EEA. 
设 如 下 等 式 : 


Aplw) = max Llw,a, 0). 
ar :o>0 


这 里 的 P 代 表 primal。 我 们 设 如 下 约束 条 件 (primal constraints) 


gi(w) <0, i=1,...,k 


hiw) =O, t= 1,--2,¢ 


如 果 条 件 不 全 部 满足 的 话 ， 我 们 总 可 以 调整 Qi 和 此 使 最 大 值 出 现 正 无 穷 ， 即 会 出 现下 面 情 
a: 


k ! 
p(w) = max ， f(w) + >, aigi(w) + x, Bhi(w) 
hs = ;一 ] 
= iG, 


因此 我 们 可 以 得 出 如 下 陈 子 : 


ie f(w) if w satisfies primal constraints 
Ho lt) = ae 
Pa | Do otherwise. 


这 样 我 们 原来 要 求 的 min f(w) 可 以 转换 成 求 了 。 


min ĝp(w) = min max L(w,a, f), 
tE l w Fai 


wG: 


同时 我 们 设 


Ap(a, 3) = min £(w, a, 8). 
Ww 


Polan D) a a om tee SORA EE WNR MA, RRR ORI SAE. ZE 


再 求 最 大 值 。 


如 下 : 
max @pl(a,3) = max min £(w, a, 3). 
wG a af: a20 


XA H RAER ABHA, Hat FR AREA T minimax, m — A SE o 
序 的 结果 是 Max Min(X) <= Min Max(X)。 然 而 在 这 里 两 者 相等 。 由 此 我 们 可 以 设 如 下 : 


c= max min £(w, a,3)< min max L(w, œ, 8) =p". 
:0 w vB: 


所 以 在 一 定 的 条 件 下 我 们 可 以 得 到 : 
t =p, 

因此 我 们 可 以 解决 原 问 题 的 对 偶 问 题 ， 但 是 我 们 还 要 看 看 条 件 是 什么 。 

ie Ag BS UM, aE e 存在 ai, bi， 使 得 hi(w) = aw 十 bi.， 并 且 还 
要 满足 存在 w 使 得 所 有 的 都 有 I) 


有 了 以 上 的 假设 ， 那 么 一 定 会 存在 使 得 是 原 问 题 的 解 ，Q , 几 是 对 偶 问题 的 解 。 同 时 也 
满足 


p* = d = Lw, a", 8"). gm, Wwa”, 9" 还 满足 karush-Kuhn-Tucker (KKT 
condition) ， 如 下 陈 子 : 


o 


一 一 上 Oo 8) = 0, t=1,...,n 
Ow; | 
a C(w* TI = 8 isl l 
aa,” wr = oer 
ar), = 8 ¢=1,...46 
giw) < = 
Wlar cOdnt /nj 
所 以 a, O 如 果 满 足 了 KKT 条 件 ， 那 么 他 们 就 是 原 问题 和 对 偶 问 题 的 解 。 
wolw) = 0, t=1,....k 、 
我 们 从 式 子 af ee | MAF 


ele) < 0, i=1,...,k 


这 个 也 就 说 明 下 fy)=0 时 ，w 义 于 可 行 域 的 边界 上 ， 这 时 才 是 起 作用 的 约束 。 


而 其 他 位 于 可 行 域内 部 的 〈 得 fw ) <0) 点 都 是 不 起 作用 的 约束 ， 其 中 也 就 是 <* 三 由 的 时 
候 。 这 个 KKT 双 重 补 足 条 件 会 用 来 解释 支持 向 量 和 SMO 的 收效 测试。 


SFFASAL(SVM) (=) -- RAAN X Ar 


(optimal margin classifier) 


来 源 : http://blog.csdn.net/u011067360/article/details/25322637 


在 之 前 为 了 寻找 最 有 分 类 器 ， 我 们 提出 了 如 下 优化 问题 : 


] 
MIN wb 5 lle |" 


gt. yf fe oc) 4b) > 1) d= 1,..., m 


在 这 里 我 们 可 以 把 约束 条 件 改 写成 如 下 : 


g(w) = ~y P (w r +b) +1 < 0. 


首先 我 们 看 下 面 的 图 示 : 





很 显然 我 们 可 以 看 出 实 线 是 最 大 间 隅 超 平 面 ， 假 设 x 号 的 是 正 例 ， 圆 圈 的 是 负 例 。 在 虚线 上 的 
点 和 在 实 线 上 面 的 两 个 一 共 这 三 个 点 称 作 支 持 同 量 。 现 在 我 们 结合 KKT 条 件 分 析 下 这 个 图 。 


a wwf) = & = 1...... n 
Ow, , 

P Ciwa g = O 一 | 
; ) 了 Cex ,1 | = t = Í....,% 


= 
W OIA 
san 
a 


ww) = 0, i= L... 、 
我 们 从 式 子 MIW) MAF 
glu”) = 0, t=1, -k Asano > Vary, gi(w') = 0. 


这 个 也 就 说 明 下 (tw =0 时 ，w 义 于 可 行 域 的 边界 上 ， 这 时 才 是 起 作用 的 约束 。 


、 那 我 们 现在 可 以 构造 拉 格 明日 函 效 如 下 : 


mT 


T 1 | 3 rt 
L(w,b,a) = 可 | 一 Y i vi |y" (u ro) 4b) — 1]. 


zi 一] 
注意 到 这 里 只 有 物 没 fi 是 因为 原 问 题 中 没有 等 式 约束 ， 只 有 不 等 式 约束 。 
2、 接 下 来 我 们 对 w 和 b 分 别 求 偏 导数 。 


VuwL£l(w, b, aœ) = w — 2 ay) = 0 
i—i 
a rd 7 Toe saat oo || 
ael! b, aœ) = 3 ay’ =U. 
并 得 到 


(i) (i) 
n= y “uy =r. 
i=] 


3、 将 上 式 带 回 到 拉 格 天 日 函数 中 得 到 : 


j| mi 
(w, b, œ) -> Ci 一 一 5 yy CF) ey. iaj) rA —b) 7 ay, 


"i i—|! 
ð m 
— fian a (i) — 
Ape wer Os a) = > ay’ = 0. 
= ， 因 此 简化 为 
m TL 
L£(w, b, a) =J a- 3 D oala (2) x GF) 


i j=l 


4、 现 在 我 们 得 到 了 关于 w 和 b 的 可 以 最 小 化 的 等 式 ， 我 们 在 联合 笃 这 个 参数 ， 当 然 他 的 条 件 还 
Wi>=0， 现 在 我 们 可 以 得 到 如 下 的 二 元 优化 等 式 了 : 


mi 


maxa W(a)= 》 a 一 ty yy walr”, 2), 
= 


DPS 


s.t. a, > 0, 1—1,....m 


5、 现 在 你 还 必须 知道 我 们 之 前 讲解 的 条 件 一 是 《 一 了 .， 二 是 KKT 条 件 : 


d= max mmnL(wv,apf)<mm max L(w,a,3) =p". 

a:a wi wo aĝ: 
很 显然 存在 w 使 得 对 于 所 有 的 9:(W) <9; Ae, EEVA 使 w 是 原 问题 的 解 & 是 对 偶 问题 
的 解 。 


如 果 求 出 竺 (也 就 是 & ) ， 根 据 


TT 
pages 
Ww 一 》 my =r. 
i=] 


即 可 求 出 w (也 是 w ， 原 问题 的 解 ) 。 然 后 


_ maXx;, y= W *T (i) 二 min,, (a) _1 ante r 
pP = y 
2 
即 可 求 出 b。 即 离 超 平面 最 近 的 正 的 函数 间隔 要 等 于 离 超 平面 最 近 的 负 的 函数 间隔 。 


6、 现 在 我 们 在 看 另外 一 个 问题 : 


m 

(i) (a) 

Ww 一 》 oy rn’. 
i=l] 


FA 
f m T 
wrth = (> RY ya a eii 
\ i=] 
m 
= A aris) eb 
所 记 ] 


So TD) fp ft 
这 里 我 们 将 向 量 内 (了 ) T RRT ，? 


现在 可 以 看 出 我 要 计算 等 式 的 话 就 只 需要 计算 向 量 的 内 积 就 好 了 ， 同 时 要 反 在 支持 向 量 上 面 
的 话 ， 那 符 =0， 这 样 就 更 简单 了 ， 因 此 很 多 的 值 都 是 0。 


文 持 同 量 机 (四) -- KR 


来 源 : http://blog.csdn.net/u011067360/article/details/25503073 


一 、 核 本 数 的 引入 


问题 1 : 
SVM 显然 是 线性 分 类 器 ， 但 数据 如 果 根 本 就 线性 不 可 分 怎么 办 ? 
解决 方案 1 : 


数据 在 原始 空间 ( 称 为 输入 空间 ) 线性 不 可 分 ， 但 是 映射 到 高 维 空间 ( 称 为 特征 空间 ) 后 很 
可 能 就 线性 可 分 了 。 

问题 2 : 

映射 到 高 维 空间 同时 带 来 一 个 问题 : 在 高 维 空间 上 求解 一 个 带 约 束 的 优化 问题 显然 比 在 低 维 
空间 上 计算 量 要 大 得 多 ， 这 器 是 所 谓 的 “ 维 数 灾难 ”。 

解决 方案 2 : 

于 是 就 引入 了 “ 核 男 数 ”"， 核 函数 的 价值 在 于 它 虽 然 也 是 讲 特 征 进行 从 低 维 到 高 维 的 转换 。 


二 、 实 例 说 明 例如 图 中 的 两 类 数据 ， 分 别 分 布 为 两 个 圆圈 的 形状 ， 不 论 是 任何 高 级 的 分 类 
器 ， 只 要 它 是 线性 的 ， 融 没 法 义理 ，SVM 也 不 行 。 因 为 这 样 的 效 据 本 身 融 是 线性 不 可 分 的 。 
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从 上 图 我 们 可 以 看 出 一 个 理想 的 分 界 应 该 是 一 个 “圆圈 ”而 不 是 一 条 线 ( 超 平 面 ) 。 如 果 用 X1 
和 X2 来 表示 这 个 二 维 平面 的 两 个 坐标 的 话 ， 我 们 知 追 一 条 二 次 曲线 (圆圈 是 二 次 曲线 的 一 种 
特殊 情况 ) 的 方程 可 以 写作 这 样 的 形式 : 


alX1i+a2X21+a3X2+a4X22+a5X1X2+a6=0 


注意 上 面 的 形式 ， 如 果 我 们 构造 另外 一 个 五 维 的 空间 ， 其 中 五 个 坐标 的 值 分 别 为 Z1=X1,， 
Z2=X21, Z3=X2, Z4=X22, Z5=X1X2， 那 么 显然 ， 上 面 的 方程 在 新 的 坐标 系 下 可 以 写作 : 


yi=15aiZit+a6=0 


关于 新 的 坐标 Z ， 这 正 是 一 个 超 平面 的 方程 ! 也 就 是 说 ， 如 果 我 们 做 一 个 映射 O:R2R5 , 

将 X 按照 上 面 的 规则 映射 为 Z ， 那 么 在 新 的 空间 中 原来 的 数据 将 变 成 线性 可 分 的 ， 从 而 使 用 

之 前 我 们 推导 的 线性 分 类 算法 就 可 以 进行 处 理 了 。 这 正 是 Kernel 方法 义理 非 线性 问题 的 基本 
FB +E 


三 、 详 细 分 析 

r_ ft) hy 
还 记得 之 前 我 们 用 内 积 ” '” “这 里 是 二 维 模型 ， 但 是 现在 我 们 需要 三 维 或 者 更 高 的 维度 
来 表示 样本 。 这 里 我 们 假设 是 维度 是 三 


那么 首先 需要 将 特征 x 扩展 到 三 维 作 XY,* )， 然 后 寻找 特征 和 结果 之 间 的 模型 。 我 们 将 这 种 特 
征 变 换 称 作 特征 上 映射 (feature mapping) 。 了 映射 男 数 称 作 申 ， 在 这 个 例子 中 


px 
o(x) = a 
Ly? 
我 们 希望 将 得 到 的 特征 映射 后 的 特征 应 用 于 SVM 分 类 ， 而 不 是 最 初 的 特征 。 这 样 ， 我 们 需要 


将 前 面 w x 十 公式 中 的 内 积 从 三 x 国 区 >， 了 映射 到 二 更 小 由 CD) >, 


为 什么 需要 映射 后 的 特征 而 不 是 最 初 的 特征 来 参与 计算 ， 一 个 重要 原因 是 样 例 可 能 存在 线性 
不 可 分 的 情况 ， 而 将 特征 映射 到 遍 维 空间 后 ， 往 往 融 可 分 了 


核 范 效 的 定义 : 


将 核 函 数 形式 化 定义 ， 如 果 原 始 特征 内 积 是 < 素 >， 了 映射 后 为 三 mo, >， 那么 定义 核 画 数 
(Kernel) 为 


K(x,z) = P(x)" plz) 


现在 有 了 以 上 的 概念 ， 我 们 现在 要 计算 K(x,z) 只 要 简单 的 计算 $ 9， 然 后 计算 Oe, ER 
出 它们 的 内 积 。 但 是 现在 有 一 个 问题 ， 那 是 计算 K(x,z) 的 时 间 复 杂 度 是 提高 了 。 即 使 是 wb9 计 
算 也 是 很 复杂 的 。 那 现在 怎么 解决 呢 ? 


现在 我 们 假设 : x，z 都 是 n 维 ， 同 时 有 
K(x, 2) = (x’ 2)° 


展开 
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发 现 我 们 可 以 只 计算 原始 特征 x 和 z 内 积 的 平方 (st aS REZO(n)) ， 融 等 价 与 计算 映射 后 
特征 的 内 积 。 也 就 是 说 我 们 不 需要 0 ) 时 间 了 。 


现在 看 一 下 映射 钞 数 (n=3 时 ) ， 根 据 上 面 的 公式 ， 得 到 


7 
ryt) | 
14143 | 
LoL, | 
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T33 | 
Lai] | 
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TaTa 


也 就 是 说 核 男 数 Kt*, 引 = (xX 2) "只 能 在 选择 这 样 的 中 作为 贞 射 函数 时 才能 够 等 价 于 映射 后 特征 的 
内 积 。 


再 看 一 个 核 画 效 
Krz) = {r zt" 
Ën i 


-.) Ziz) TE Yi TET: Ti) (y 2cz;) 十 


ij—1 i=] 


一 : 
T; 
Ea 
Ls 
*—€ 
ae, 
i 
P| 
用 
| 


xt i AIRI (n=3 时 ) 是 


nt+d 
更 一 般 地 ， We eee : ) 


四 、 如 何 映 射 到 核 男 数 
现在 介绍 了 核 东 数 之 后 那 到 底 怎 么 来 使 用 核 落 数 到 样本 了 ? 


设 超 平面 实际 的 方程 是 这 个 样子 (圆心 在 X2 轴 上 的 一 个 正 圆 ) 


a1Xx21+a2(X2-c)2+a3=0 


因此 我 只 需要 把 它 映射 到 Z1=X21, Z2=X22, Z3=X2 这 样 一 个 三 维 空 间 中 即 可 ， 下 图 是 映射 之 
后 的 结果 ， 将 坐标 轴 经 过 适当 的 旋转 ， 就 可 以 很 明显 地 看 出 ， 数 据 是 可 以 通过 一 个 平面 来 分 
开 的 : 





现在 让 我 们 再 回 到 SVM 的 情形 ， 假 设 原始 的 数据 时 非 线性 的 ， 我 们 通过 一 个 映射 o) 将 其 映 
射 到 一 个 高 维 空间 中 ， 数 据 变 得 线性 可 分 了 ， 这 个 时 候 ， 我 们 就 可 以 使 用 原来 的 推导 来 进行 
计算 ， 只 是 所 有 的 推导 现在 是 在 新 的 空间 ， 而 不 是 原始 空间 中 进行 。 
我 们 上 一 次 得 到 的 最 终 的 分 类 图 数 是 这 样 的 : 

f(z} = Y aiy; (ai, 2) +b 


{=l 


现在 则 是 在 映射 过 后 的 空间 ， 即 : 
f(z) = 》 aiy;(o(wi), P(@)) +b 
t=! 


而 其 中 的 a 也 是 通过 求解 如 下 dual 问题 而 得 到 的 : 


Oo | — 7 | | 
re ` Qi T3 ` Oia yy lole) ple) 

a =| ee 
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n 
Dd aiy = 0 
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回 到 我 们 之 前 构造 的 一 个 五 维 的 空间 : MERON RAR, BERERA 
以 看 出 ， 数 据 映 冉 到 新 空间 后 ， 因 为 新 空间 是 多 维 的 ， 计 算 量 肯 定 是 增加 了 不 少 了 ， 现 在 束 
BE FA KEN RAR T o 


X a;Zi +ag =Ù 
t=1 


En) 


z T 二 = 
不 妨 还 是 从 最 开始 的 简单 例子 出 发 ， 设 两 个 向 量 Z1 S (Mon) 和 和? 而 


o(*) 即 是 到 前 面 说 的 五 维 空间 的 映射 ， 

五 个 坐标 的 值 分 别 为 Z1=X1, Z2=X21, Z3=X2, Z4=X22, Z5=X1X2, 

因此 映射 过 后 的 内 积 为 : 
(olei) d(w2)) = mE PAPEI P RE EVES Mme Es 

AR HE Fe 11102 BU fl MIRRE, BAR, EMR SASH RAR LIRA T 
y(X1,X0) = (VER; Wh Wexsdyenelaa Mpa 


这 样 一 来 计算 的 问题 束 算 解决 了 ， 夫 开 了 前 接 在 高 维 空间 中 进行 计算 ， 而 结果 却 是 等 价 的 。 


Ay AAKA 


再 看 另外 一 个 核 画 效 


| 
Klz,2z) = exp E) > 
| 207 


这 时 ， 如 果 x 和 z 很 相近 (EZ °) | ARAB 1, MRAMBA (loll A 
) ， 那 么 核 轿 数值 约 等 于 0。 由 于 这 个 玉 数 类 似 于 高 斯 分 布 ， 因 此 称 为 高 斯 核 汞 数 ， 也 叫做 径 
In) #£ EX SX(Radial Basis Function 简称 RBF)。 它 能 够 把 原始 特征 映射 到 无 穷 维 。 


既然 高 斯 核 落 数 能 够 比较 x 和 z 的 相似 度 ， 并 映射 到 0 到 1， 回 想 logistic 回 轨 ，sigmoid 回 数 可 
以 ， 因 此 还 有 sigmoid 核 函数 等 等 。 

注意 ， 使 用 核 画 数 后， 怎么 分 类 新 来 的 样本 呢 ? 线性 的 时 候 我 们 使 用 SVM 学 习 出 w 和 b， 新 来 
样本 x 的 话 ， 我 们 使 用 ” x + ?来 判断 ， 如 果 值 大 于 等 于 1， 那 么 是 正 类 ， 小 于 等 于 是 负 类 。 在 
两 者 之 间 ， 认 为 无 法 确定 。 如 果 使 用 了 核 画 数 后 ，W * + ?就 变 成 了 w $C9 ++ 上 了， 是 否 先 要 找 
到 Py， 然后 再 预测 ? 答案 肯定 不 是 了 ， 找 (0 很 麻烦 ， 回 想 我 们 之 前 说 过 的 


ni 
(> asz) T +b 


w IrIS 


rn 


$ azy (xr), oe 


i=] 


Reaeiy< x9 x > 替换 成 ECG, 妇 ， 然 后 值 的 判断 同上 。 


总 结 : 对 于 非 线性 的 情况 ，SVM 的 义理 方法 是 选择 一 个 核 画 数 k(*) ， 通 过 将 数据 映射 到 高 维 
空间 ， 来 解决 在 原始 空间 中 线性 不 可 分 的 问题 。 由 于 核 酌 数 的 优 民 品质， 这 样 的 非 线性 扩展 

在 计算 量 上 并 没有 上 比 原来 复杂 多 少 ， 这 一 点 是 非 弟 难得 的 。 当 然 ， 这 要 为 功 于 核 方法 一 一 除 

了 SVM 之 外 ， 任 何 料 计算 表示 为 数据 点 的 内 积 的 方法 ， 都 可 以 使 用 核 方 法 进行 非 线 性 扩展 。 

参考 文档 : ( 主要 的 参考 文档 来 自 4 个 地 方 ) 


1. 327 S41: Kernel 





2, JerryLeadK FAK ENA HAF 
3, 支持 向 量 机 通俗 导论 (理解 SVM 的 三 层 境界 


4、 斯 坦 倡 大 学 机 器 学 习 的 公开 课 。 


LA AIS AL(SVM) (E) -- SMO 算 法 详解 


来 源 : http://blog.csdn.net/u011067360/article/details/265037 19 
一 、 我 们 先 回顾 下 SVM 问 题 。 
A、 线 性 可 分 问题 
1、SVM 基 本 原理 : 


SVM 使 用 一 种 非 线 性 映射 ， 把 原 训练 数据 映射 到 较 局 的 维 。 在 新 的 维 上 ， 搜 索 最 佳 分 离 超 平 
面 ， 两 个 类 的 数据 总 可 以 被 超 平面 分 开 。 





2、 问 题 的 提出 : 


线性 可 分 的 分 类 问题 : ( 令 黑色 的 点 = -1 ， 日 色 的 点 = +1) 


f) =P - 4.6 


F : 


所 以 当 有 一 个 新 的 点 x 需 要 预测 属于 哪个 分 类 的 时 候 ， 我 们 用 


sqn(f(x)， 就 可 以 预测 了 ，sgn 表 示 符 号 国 数 ， 当 {f(X) > 0 的 时 候 , 
sgn(f(x)) = +1, 当 f(x) < 0 的 时 候 sgn(f(x)) = -1. 


3、 如 何 选取 最 优 的 划分 直线 f(X) 呢 ? 


Hy AI & Maximum Marginal Hyperplane 


。 其 中 : W= {w1, w2, ..wn} 是 权重 向 量 
H : WX+b=0 H1:WX+b=1 H?:WX+b=-1 


。 几何 间隔 : Snw = le 6=y(wx+b)=|g(x)| 


。 HRA max 2 H; _ 0 
"H 


= 


SNF min e] 





. 约束 条 件 a nr y =H D 


WX + bz, k= A margin=2/|/W 


4、 求 解 : 凸 二 次 规划 


数据 集合 : T= {(x,,.)),---(%),)} ER" xy) 
LER oad SALA Ae hcad 


目标 函数 :min Sl 


约束 条 件 : sn 人 


w-x,+b<5-l, y =-l 


x ，y 已 知 。 mimzlw syy 46)2 b= bor 


建立 拉 格 明日 函数 : 


| | , i 
L(w,b,a) => ll wl ->,a ,Cw x, +b)-1) 


求 偏 导数 : 

us 
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B、 线 性 不 可 分 问题 


1, KHAN 





如 下 图 : 横 轴 上 病 点 a 和 b 之 间 红 色 部 分 里 的 所 有 点 定 为 正 类 ， 两 边 的 黑色 部 分 里 的 点 定 为 负 


米 


\ j 
4 / 
\ j 
$ / 
\ ; 
oo h 
" ft 
a b M a 
设 : 
g(x) 转 化 为 f(y)= 
g(xX)=f(y)=ay 


在 任意 维度 的 空间 中 ， 这 种 形式 的 画 数 都 是 一 个 线性 函数 (只 不 过 其 中 的 a 和 y 都 是 多 维 同 量 
ZY), AABRByNRARAFT1. 


|» | 1 a| 1% 
| Vy ie | ay | Cy 


下 图 w，x 都 是 1000 维 ，w’ 和 Xx’ 分 别 是 由 Ww，Xx 变 换 得 到 的 2000 维 向量 
g(x)=K(w,x)+b 
K(W,x) 4 OE FY EK BN 


基本 作用 : 接受 两 个 低 维 空间 里 的 向 量 ， 能 够 计算 出 经 过 某 个 变换 后 在 高 维 空间 里 的 向 量 内 
积 值 。 


f(x)=<w,x>+b f(x)=<w.,x >+b 
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min w+ 5 


subject to y(wx,)+5]21-4, (-1.2,....) 
C20 


3、 软 间隔 C-SVM : 


i n] TE. 
minz I| w || min > | wI +C par 
; 一 j=] 


sdy (w x, +b)ẹ21,i=1, -n S4., y (W x,+6)21-€,é 20 






C=—THA PIBENRR, RORNDSHRMASYNET, KCRAK AR, DEN RM 
会 更 少 ， 但 是 过 拟 合 的 情况 可 能 会 比较 严重 ， 当 C 很 小 的 时 候 ， 分 错 的 点 可 能 会 很 多 ， 不 过 可 
能 由 此 得 到 的 模型 也 会 不 太 正 确 

总 结 : 

SVM 算法 优点 : 

(1) 非 线性 映射 是 SVM 方 法 的 理论 基础 ,SVM 利 用 内 积 核 函数 代 蔡 向 高 维 空间 的 非 线 性 映射 ; 
(2) 对 特征 空间 划分 的 最 优 超 平面 是 SVM 的 目标 ,最 大 化 分 类 边际 的 思想 是 SVM 方 法 的 核心 ; 


(3) 文 持 同 量 是 SVM 的 训练 结果 ,在 SVM 分 类 决策 中 起 决定 性 作用 。 因 此 ， 模 型 需要 存储 空间 
小 ， 算 法 和 鲁 棒 性 (Robust) 强 。 


SVM 算法 缺点 : 
(1) SVM 算法 对 大 规模 训练 样本 难以 实施 


由 于 SVM 是 借助 二 次 规划 来 求解 支持 向 量 ， 而 求解 二 次 规划 将 涉及 m 阶 矩阵 的 计算 (m 为 样本 
的 个 数 ) ， 当 m 数 目 很 大 时 该 矩阵 的 存储 和 计算 将 耗费 大 量 的 机 器 内 存 和 运算 时 间 。 


(2) 用 SVM 解决 多 分 类 问题 存在 困难 


经 典 的 支持 同 量 机 算法 只 给 出 了 二 类 分 类 的 算法 ， 而 在 数据 挖掘 的 实际 应 用 中 ， 一 般 要 解决 


多 类 的 分 类 问题 。 
基于 以 上 问题 ， 我 们 现在 讨论 SOM (Sequential Minimal Optimization algorithm) 算法 。 
1、SMO 算 法 的 原理 


这 一 被 称 为 “ 顺 次 最 小 优化 ”的 算法 和 以 往 的 一 些 SVM 改 进 算法 一 样 ， 是 把 整个 二 次 规划 问题 分 
解 为 很 多 易于 义理 的 小 问题 ， 所 不 同 的 是 ， 只 有 SMO 算 法 把 问题 分 解 到 可 能 达到 的 最 小 规 
模 : 


次 优化 只 处 理 两 个 样本 的 优化 问题 ， 并 且 用 解析 的 方法 进行 处 理 。 我 们 将 会 看 到 ， 这 种 与 众 
不 同 的 方法 带 来 了 一 系列 不 可 比拟 的 优势 。 

对 SVM 来 说 ， 一 次 至 少 要 同时 对 两 个 样本 进行 优化 〈 融 是 优化 它们 对 应 的 Lagrange 乘 子 ) ， 
这 是 因为 等 式 约 束 的 存在 使 得 我 们 不 可 能 单独 优化 一 个 变量 。 


PIT a8 “ax /) 016” BY a AE R Bh eS BT A A BAT BY A RE “PS BY IE i A, 
Mili set TIARA. 


当然 ， 这 样 一 次 “最 小 优化 "不 可 能 保证 其 结果 束 是 所 优化 的 Lagrange 乘 子 的 最 终结 果 ， 但 会 使 
目标 图 数 向 极 小 值 近 进一步 。 我 们 再 对 其 它 Lagrange 乘 子 做 最 小 优化 ， 直 到 所 有 乘 子 都 符合 
KKT 


条 件 时 ， 目 标 落 数 达 到 最 小 ， 算 法 结束 。 


这 样 ，SMO 算 法 要 解决 两 个 问题 : 一 是 怎样 解决 两 个 变量 的 优化 问题 ， 二 是 怎样 决定 先 对 哪 
些 Lagrange 乘 子 进行 优化 。 


2、 两 个 Lagrange 乘 子 的 优化 问题 


我 们 在 这 里 不 妨 设 正 在 优化 的 两 个 Lagrange 乘 子 对 应 的 样本 正 是 第 一 个 和 第 二 个 ， 对 两 个 
Lagrange 乘 子 a1 和 a2， 人 在 其 他 乘 子 不 改变 的 情况 下 ， 它 们 的 约束 条 件 频 表达 为 正方 形 内 的 一 
条 线段 。 (如 图 ) 


二 下 





d3=0 d3—0e 


在 这 条 线段 上 求 一 个 函数 的 极 值 ， 相 当 于 一 个 一 维 的 极 值 问 题 。 我 们 可 以 把 a1 用 a2> 表 示 ， 对 
aq2 求 无 条 件 极 值 ， 如 果 目 标 函 数 是 严格 上 凹 的 ， 最 小 值 束 一 定 在 这 一 极 值 点 ( 极 值 点 在 区 间 
A) 或 在 区 间 端 点 〈 极 值 点 在 区 间 外 ) 。a2 确 定 后 ，a1 也 就 确定 下 来 了 。 因 此 我 们 先 找到 a 
优化 区 间 的 上 下 限制 ， 再 在 这 个 区 间 中 对 a2 求 最 小 值 。 


由 图 1 我 们 容易 得 到 az 的 上 下 限 应 为 : 

L=max(0,a2—a4), H=min(C,C+a9 -a1), 若 y1 与 y? 异 号 ; 
L=max(0,a9 +a4—C), H=min(C, ag +a1) , 若 y1 与 y2 同 号 ; 

作 S=y1y2 标 记 这 两 个 样本 是 否 同类 ， 则 有 

L=max(0, ag+sa4— 1/2 (s+1)C), H=min(C, ad +Sa1 —1/2 (s—1)C) 
而 a1 和 a2 在 本 次 优化 中 所 服从 的 等 式 约 束 为 : 


0 0 


Qa1 十 Sa2=a -1+SQ 2=d 


下 面 我 们 推导 求 最 小 值 点 Qa2 的 公式 : 由 于 只 有 Qa1，Q2 两 个 变量 需要 考虑 ， 目 标 图 数 可 以 写成 


Wolfe(a4 09) =1/2K 44024 +1/2 K22a22+ sK490409 + y191V1+Yy2Q2V2 — a1 一 Q2+ 常 数 


0 0 0 0 


其 中 Kij=K(xi,xj), viy3a3Ki3+...+yja®]Kij = uj+b®— y1001K1i 一 y20n 1K2i 

上 标 为 0 的 量 表示 是 本 次 优化 之 前 Lagrange 乘 子 的 原 值 。 

将 a2 用 a1 表 示 并 代入 目标 加 数 : 

Wolfe (a2) =1/2 K44(d-sa2)*+1/2Ko9a79+sK49(d-sag) agty4(d-saz)v4— d+sagty2a9v2 一 
apt BM 

对 aq2 求 导 : 

dwWwolfe(a>)/da2= 一 SK11(d 一 Sa2)+K22a2 一 人 K12a2+SK12(d 一 Sa2) 一 y2V2+S+y2VvV2 一 1 三 0 


如 果 Wolfe 函 数 总 是 严格 目的 ， 即 二 阶 导 数 K11+K22 一 2K12>0, 那么 驻 点 必 为 极 小 值 点 ， 无 
RFR RAMA 


Qa2 三 [SIK11 一 K12)d+y2(V1 一 V2) 十 1 一 S] / (K141 +K22—2K49) 
将 d,V 与 a0,u 之 间 关 系 代入 ， 就 得 到 用 上 一 步 的 a02，u1,u2 表 示 的 a2 的 无 条 件 最 优点 : 


aq2=[a02(K11 十 K22 一 2K12)+y2(u1 一 u2 十 y2 一 y1)] 1/(K11 十 K22 一 2K12) 


令 n=K11 十 K22 一 2K12 为 目标 本 数 的 二 阶 导 效 ，Ei=uyij 一 yi 为 第 i 个 训练 样本 的 “ 误 焉 "”， 这 个 式 子 
MAWES HA 
ag=a+yo(Eq—-E2)/n 


BRIEAK ES SNK i Mercere fF 〈 也 融 是 说 不 能 作为 核 酌 数 ) ，n 不 会 出 现 负 值 。 但 n=0 是 可 
以 出 现 的 情况 。 这 时 我 们 计算 目标 男 数 在 线段 两 个 痛 点 上 的 取 值 ， 并 将 Lagrange 乘 子 修正 到 
目标 图 数 较 小 的 端点 上 : 


f1=y1(E1+b)—a41K(x1,x1)— SCQ2K(X1,X1) 

f2=y2(E2+b)— sa1K(X1,X2)— 02K(X2,X2) 

L4=a4+s(a2—L) 

H41=a1+s(a2—H) 

WolfeL=L4f4+Lfo+1/2 L24K(x4,x4)+1/2L2K(x9,x9)+SLL4K(x4,x9) 
WolfeH=H 44 +Hfo+1/2 H24K(x4,x4)+1/2H2K(x9,x2)+SHH 4 K(x4,x9) 


当 两 个 问 点 上 取得 相同 的 目标 汞 数值 时 ， 目 标 娘 数 在 整 条 线段 上 的 取 值 都 会 是 一 样 的 (因为 
Cell) ， 这 时 不 必 对 a1，a2 作 出 修正 。 


qa2 的 无 条 件 极 值 确定 后 ， 再 考虑 上 下 限 的 限制 ， 最 终 的 a2 为 


最 后 ， 由 等 式 约 束 确 定 a1 : 

aq =a1+s(a2 一 aq2 ) 

3、SMO 算 法 

3.1、SMO 算 法 的 目的 无 非 是 找 出 一 个 函数 f(x)， 这 个 函数 能 让 我 们 把 输入 的 数据 x 进行 分 类 
将 一 个 西 二 次 规划 问题 转换 成 下 列 形式 (KKT 条 件 ) 


j i ] a; = 0S Vu, 2 | (a) 

—w wt epp G; 0<a,<COyu,=1 (b) 

2 i=1 Pe 
a, =C. yu, <1 (c) 


这 里 的 ai 是 拉 格 明日 梯子 (问题 通过 拉 格 明日 乘法 数 来 求解 ) 
对 于 (a) 的 情况 ， 表 明 ai 是 正 弟 分 类 ， 在 边界 内 部 我们 知道 正确 分 类 的 点 yi*f(xi)>=0) 
对 于 (b) 的 情况 ， 表 明了 ai 是 支持 向 量 ， 在 边界 上 


对 于 (0) 的 情况 ， 表 明了 ai 是 在 两 条 边界 之 间 而 最 优 解 需要 满足 KKT 条 件 ， 即 满足 (a) 
(b) (c) 条 件 都 满足 


3.2、 以 下 几 种 情况 出 现 将 会 出 现 不 满足 : 

yiui<=1 但 是 ai<C 则 是 不 满足 的 ,而 原本 ai=C 

yiui>=1 但 是 ai>0 则 是 不 满足 的 而 原本 ai=0 

yiui=1 但 是 ai=0 或 者 ai=C 则 表明 不 满足 的 ， 而 原本 应 该 是 0<ai<C 

所 以 要 找 出 不 满足 KKT 的 这 些 ai， 并 更 新 这 些 ai， 但 这 些 ai 又 受到 另外 一 个 约束 ， 即 


] 
D4; =0 


i=] 
通过 另 一 个 方法 ， 即 同时 更 新 ai 和 aj， 满 足以 下 等 式 


new _. pb S oa A 
ad; yta, p! 一 l. Yı ra; Fo T AN 


TA BE IR HE PU A 0692 R. 


利用 上 面 的 式 子 消去 ai 
得 到 一 个 关于 单 变量 aj 的 一 个 凸 二 次 规划 问题 ， 不 考虑 其 约束 0<=aj<=C, 可 以 得 其 解 为 : 


17] 


一 


aj 表 示 旧 值 ， 然 后 考虑 约束 0<=aj<=C 可 得 到 a 的 解析 解 为 : 


H if a” >H 
: J 
/ J J 
= Frew 
: < 
L if] /hts csh 


其 中 : 
L=max(0,a,—a,),H =max(C,C+a,—a,) if yy, 
L=max(0,@,+a,—C),H=max(C,a,—a,) if y,=y, 


输入 是 x， 是 一 个 数组 ， 组 中 每 一 个 值 表示 一 个 特征 。 输出 是 A 类 还 是 B 类 。 ( 正 类 还 是 负 


类 ) 


n 
x) = py AV K(X :X) 十 D 
j=! 


4、SMO 算 法 的 特点 和 优势 SMO 算 法 和 以 往 流 行 的 SVM 优 化 算法 如 块 算法 、 固 定 工 作 样 本 集 
法 相 比 ， 既 有 共同 点 ， 又 有 目 己 的 独特 之 处 。 


共同 点 在 于 它们 都 是 把 一 个 大 的 优化 问题 分 解 为 很 多 小 问题 来 处 理 。 块 算法 在 每 一 步 中 将 新 
加 入 样本 中 违反 KKT 条 件 的 样本 与 原 有 的 支持 向 量 一 起 组 成 小 问题 的 样本 集 进 行 优化 ， 优 化 


只 保留 其 中 的 支持 向 量 ， 再 加 进来 新 的 样本 进入 下 一 步 。 固 定 工 作 样本 集 法 是 每 一 步 只 收集 
新 加 入 样本 中 “最 坏 "的 样本 ， 并 将 原来 保留 的 支持 向 量 集中 “ 较 好 ”的 替换 出 去 ， 以 保持 样本 集 
大 小 不 


变 。SMO 则 是 把 每 一 步 的 优化 问题 缩减 到 了 最 小 ， 它 可 以 看 作 是 固定 工作 样本 集 法 的 一 种 特 
殊 情 况 : 把 工作 样本 集 的 大 小 固定 为 2， 并 且 每 一 步 用 两 个 新 的 Lagrange 乘 子 蔡 换 原 有 的 全 部 
WF, 


SMOM ax A 4 B4E FC BI LASS FARA AY 5 KD Se Ea GT ORARAA AK SS AL 
f=. RMBAAVE SHANA, MERSAeSMANKEKHRARR (Re ER Rh 
MIR 


ARERR I RAMH) 。 理 论 上 SMO 的 每 一 步 最 小 优化 都 不 会 造成 任何 误 关 积累 ， 而 如 果 
用 双 精 度数 计算 ， 舍 人 误 故 几乎 可 以 忽略 ， 于 是 所 有 的 误 和 只 在 于 最 后 一 通 检 验 时 以 多 大 的 


公差 要 
求 所 有 Lagrange 乘 子 满足 KKT 条 件 。 可 以 说 SMO 算 法 在 速度 和 精度 两 方面 都 得 到 了 保证 。 


SMO 在 内 存 的 节省 上 也 颇具 特色 。 我 们 看 到 ， 由 于 SMO 不 涉及 二 次 规划 数值 解法 ， 就 不 必 将 
核 酌 数 和 矩阵 整个 存在 内 存 里 ， 而 数值 解法 每 步 迭 代 都 要 拿 这 个 矩阵 作 运 算 。 (4000 个 样本 的 
RK EK 


数 和 矩阵 需要 128M 内 存 ! ) 于 是 SMO 使 用 的 内 存 是 与 样本 集 大 小 成 线性 增长 的 ， 而 不 象 以 往 的 
算法 那样 成 平方 增长 。 在 我 们 的 程序 中 SMO 算 法 最 多 占用 十 几 兆 内 存 。SMO 使 得 存储 空间 问 


题 个 
再 是 SVM 应 用 中 的 另 一 个 瓶颈 。 


SMO 算 法 对 线性 支持 向 量 机 最 为 肥效， 对 非 线 性 则 不 能 发 挥 出 全 部 优势 ， 这 是 因为 线性 情况 
下 每 次 最 小 优化 后 的 重 苇 工作 都 是 很 简单 的 运算 ， 而 非 线性 时 有 一 步 加 权 求 和 ， 占 用 了 主要 
的 时 


间 。 其 他 算法 对 线性 和 非 线 性 区 别 不 大 ， 因 为 凡是 涉及 二 次 规划 数值 解 的 算法 都 把 大 量 时 间 
花 在 求 数值 解 的 运算 中 了 。 


当 大 多 数 Lagrange 乘 子 都 在 边界 上 时 ，SMO 算 法 的 效果 会 更 好 。 尽管 SMO 的 计算 时 间 仍 比 
训练 集 大 小 增长 快 得 多 ， 但 比 起 其 它 方法 来 还 是 增长 得 慢 一 个 等 级 。 因 此 SMO 较 适合 大 数量 
的 样本 。 


数据 挖掘 十 大 算法 --Apriori 算 法 


来 源 : http://blog.csdn.net/u011067360/article/details/24810415 
一 、Apriori 算法 概述 
Apriori 算法 是 一 种 最 有 影响 力 的 挖掘 布尔 天 联 规则 的 频繁 项 集 的 算法 ， 它 是 由 Rakesh 
Agrawal 和 RamakrishnanSkrikant 提出 的 。 它 使 用 一 种 称 作 逐 层 搜索 的 迭代 方法 ，k- 项 集 用 
FIRR (k+1) - 项 集 。 首 先 ， 找 出 频繁 1- 项 集 的 集合 。 该 集合 记 作 L1。L1 用 于 找 频 繁 2- 项 
集 的 集合 L2， 而 L2 用 于 找 L2， 如 此 下 去 ， 直 到 不 能 找到 k- 项 集 。 每 找 一 个 Lk 需要 一 次 数据 
库 扫 搞 。 为 提高 频繁 项 集 逐 层 产 生 的 效率 ， 一 种 称 作 Apriori 性 质 的 重 要 性 质 用 于 压缩 搜索 空 
间 。 其 运行 定理 在 于 一 是 频繁 项 集 的 所 有 非 空 子 集 都 必须 也 是 频繁 的 ， 二 是 非 频 繁 项 集 的 所 
有 父 集 都 是 非 频 繁 的 。 
二 、 问 题 的 引入 
购物 得分 析 : 引发 性 例子 
Question : 哪 组 两 品 顾客 可 能 会 在 一 次 购物 时 同时 购买 ? 
天 联 分 析 
Solutions : 
1: 经 常 同时 购买 的 两 品 可 以 摆 近 一 点 ， 以 便 进 一 步 刺 激 这 些 丙 品 一 起 销售 。 
2 : 规划 哪些 附属 丙 品 可 以 降价 销售 ， 以 便 刺激 主体 了 丙 品 的 捆绑 销售 。 
三 、 天 联 分 析 的 基本 概念 
1. HE 
关联 规则 A->B 的 支持 度 support=P(AB)， 指 的 是 事件 A 和 事件 B 同 时 发 生 的 概率 。 
2. Blak 
置信 和 度 confidence=P(BI|A)=P(AB)/P(A), 指 的 是 发 生 事 件 人 A 的 基础 上 发 生 事 件 B 的 概率 。 上 比如 说 
在 规则 Computer => antivirus_software , 其 中 support=2%, confidence=60% 中 ， 就 表示 的 意 
思 是 所 有 的 商品 交易 中 有 2% 的 顾客 同时 买 了 电脑 和 杀毒 软件 ， 并 且 购 买 电脑 的 顾客 中 有 60% 
也 购买 了 杀毒 软件 。 


3、k 项 集 


如 果 事 件 A 中 包含 k 个 元 素 ， 那 么 称 这 个 事件 A 为 k 项 集 ， 并 且 事 件 A 满 足 最 小 文 持 度 阅 值 的 事 
件 称 为 频繁 k 项 集 。 


4、 由 频繁 项 集 产 生 强 关联 规则 
1) K 维 数据 项 集 LK 是 频繁 项 集 的 必要 条 件 是 它 所 有 K-1 维 子 项 集 也 为 频繁 项 集 ， 记 为 LK-1 


2) 如 果 K 维 数据 项 集 LK 的 任意 一 个 K-1 维 子 集 Lk-1， 不 是 频繁 项 集 ， 则 K 维 数据 项 集 LK 本 身 也 
不 是 最 大 数据 项 集 。 


3) Lk 是 K 维 频繁 项 集 ， 如 果 所 有 K-1 维 频繁 项 集合 Lk-1 中 包含 LK 的 K-1 维 子 项 集 的 个 数 小 于 
K， 则 Lk 不 可 能 是 K 维 最 大 频繁 数据 项 集 。 


4) ly Hem RSE CAR) SEE ANAM A BAN. 


例如 : 用 一 个 简单 的 例子 说 明 。 表 1 是 顾客 购买 记录 的 数据 库 D， 包 含 6 个 事务 。 项 集 1={ 网 球 
担 ,网 球 ,运动 鞋 ,羽毛 球 }。 考 虑 天 联 规则 : 网 球 担 全 网 球 ， 事 务 1,2,3,4,6 包 含 网 球拍 ， 事 务 


3 3 | 
1.2 .6 同时 包含 网 球拍 和 网 球 ， 支 持 度 SUPPort 一 GO ggg ent = § = 0.0 


。 若 给 定 最 小 支持 度 Q 二 0.5， 最 小 置信 度 吕 三 由 .0， 关 联 规则 网 球拍 全 网 球 是 有 趣 的 ， 认 为 
购买 网 球拍 和 购买 网 球 之 间 存 在 强 关 联 。 


四 、Apriori 算 法 的 基本 思想 : 
Apriori 算 法 过 程 分 为 两 个 步骤 : 


第 一 步 通 过 迭代 ， 检 索 出 事务 数据 库 中 的 所 有 频繁 项 集 ， 即 支持 度 不 低 于 用 户 设 定 的 六 值 的 
项 集 ; 


第 二 步 利用 频繁 项 集 构造 出 满足 用 户 最 小 信任 度 的 规则 。 
具体 做 法 束 是 : 


首先 找 出 频繁 和 -项 集 ， 记 为 L1 ; 然后 利用 L1 来 产生 候选 项 集 C2， 对 C2 中 的 项 进行 判定 挖掘 出 
L2， 即 频繁 2- 项 集 ; 不 断 如 此 循环 下 去 下 到 无 法 发 现 更 多 的 频繁 k- 项 集 为 止 。 每 挖掘 一 尽 Lk 丈 
需要 扫 拍 整个 效 据 库 一 通 。 算 法 利用 了 一 个 性 质 : 


Apriori 性 质 : : 任 一 频繁 项 集 的 所 有 非 空 子 集 也 必须 是 频繁 的 。 意思 就是 说 ， 生成 一 个 k- 
itemset 的 候选 项 时 ， 如 果 这 个 候选 项 有 子 集 不 在 (k-1)-itemset( 已 经 确定 是 frequent 的 ) 中 时 ， 
那么 这 个 候选 项 融 不 用 拿 去 和 支持 度 判 断 了 ， 直 接 删 除 。 具 体 而 言 : 


1) RD 


AHL, 〈 所 有 的 频繁 k 项 集 的 集合 ) ， 通 过 将 Lk_1 (所 有 的 频繁 k-1 项 集 的 集合 ) 与 自身 连接 
产生 候选 k 项 集 的 集合 。 候 选集 合 记 作 Ck。 设 I1 和 12 是 Lk_1 中 的 成 员 。 记 1 四 表示 li 中 的 第 j 项 。 
假设 Apriori 算 法 对 事务 或 项 集中 的 项 按 字典 次 序 排序 ， 即 对 于 (k-1) 项 集 |j，li[1]i</sub>[2] 
oats, i</sub>[k-1], FL ..4SRB PER, WR(14[1]=lo[1])&&( 14 [2]=lo[2])&&........ && (14 [k- 
2]=lo[k-2])&&(I4 [k-1]2</sub>[k-1]), ABA Al Mle, HM 产生 的 结果 是 

{14 [1],14[2],......, 14[k-1],12[k-1]}。 


2) Bee 


CK 是 LK 的 超 集 ， 也 就 是 说 ，CK 的 成 员 可 能 是 也 可 能 不 是 频繁 的 。 通 过 扫 摘 所 有 的 事务 (KR 
易 ) ， 确 定 CK 中 每 个 候选 的 计数 ， 判 断 是 否 小 于 最 小 支持 度 计 数 ， 如 果 不 是 ， 则 认为 该 候选 
是 频繁 的 。 为 了 压缩 Ck, 可 以 利用 Apriori 性 质 : 任 一 频繁 项 集 的 所 有 非 空 子 集 也 必须 是 频繁 

的 ， 反 之 ， 如 果 某 个 候选 的 非 空 子 集 不 是 频繁 的 ， 那 么 该 候选 肯定 不 是 频繁 的 ， 从 而 可 以 将 
其 从 CK 中 删除 。 


五 、 实 例 说 明 


实例 一 : 下 面 以 图 例 的 方式 说 明 该 算法 的 运行 过 程 : 假设 有 一 个 数据 库 D， 其 中 有 4 个 事务 记 
录 ， 分 别 表 示 为 : 


TID) Items 
T1 (11,3, 
Te (213,15 
T3 Ht, 
T4 |l2,15 


这 里 预定 最 小 支持 度 minSupport=2, 下 面 用 图 例 说 明 算 法 运行 的 过 程 : 
、 扫 摘 D， 对 每 个 候选 项 进行 支持 度 计 效 得 到 表 C1: 


Ms SCPE Re 
2 
3 
3 


{4} | 1 
{IS} |3 


2、 上 比较 候选 项 支持 度 计 数 与 最 小 支持 度 minSupport， 产 生 1 维 最 大 项 目 集 L1 : 
mE RE re 


{1} |2 


3 
HS} |S 
3 


3、 由 L1 产 生 候 选项 集 C2 : 


{|2 3% 

[215 

13.15} 

4、 打 描 D， 对 每 个 候选 项 集 进 行 支持 度 计 数 : 


nt AEH 
{11 1244 
{11.1342 


5、 比 较 候 选项 支持 度 计 数 与 最 小 支持 度 minSupport， 产 生 2 维 最 大 项 目 集 L2 : 
mE REHA 


{11.13}|2 
{12.13}|2 
{12.15}|3 
{13.15} |2 
6、 由 L2 产 生 候 选项 集 C3 : 


mE 


12.13.15} 

7、 比 较 候选 项 支持 度 计 数 与 最 小 支持 度 minSupport， 产 生 3 维 最 大 项 目 集 L3 : 
ne xe TR 

{12.13.15} |2 

算法 终止 。 

实例 二 : 下 图 从 整体 同样 的 能 说 明 此 过 程 : 


ltemset SUE 


Database TDB , Itemset | sul 


> itemset S| stp | 
2 
(ce | 2 


ltemset 


| Itemset | Sup 
sco —— > 


此 例 的 分 析 如 下 : 





1 .连接 : C3=L2 L2= {{A,C},{B,C},{B, EXC,E} {{A,C},{B,C},{B, E{C,E}} = {{A,B,C},{A,C, E}, 
{B,C,E}} 


2. $ ĦApriorilt AR: 频繁 项 集 的 所 有 子 集 必须 是 频繁 的 ， 对 候选 项 C3， 我 们 可 以 删除 其 
子 集 为 非 频 繁 的 选项 : 


{A,B,C} 的 2 项 子 集 是 {A,B}),{A,C}),{B,C}， 其 中 {A,B}) 不 是 L2 的 元 秦 ， 所 以 删除 这 个 选项 ; 
{A,C,E} 的 2 项 子 集 是 {A,C}),{A,E},{C,E}， 其 中 {A,E} 不 是 L2 的 元 秦 ， 所 以 删除 这 个 选项 ; 


{B,C,E} 的 2 项 子 集 是 {B,C},{B,E},{C,E}， 它 的 所 有 2 一 项 子 集 都 是 L2 的 元 素 ， 因 此 保留 这 个 选 


项 。 


3. 2, BRAS 2C3=({B,C,E} 


PS 
从 算法 的 运行 过 程 ， 我 们 可 以 看 出 该 Apriori 算 法 的 优点 : 简单 、 易 理解 、 数 据 要 求 低 ， 然 而 我 
们 也 可 以 看 到 Apriori 算 法 的 缺点 : 


(1) 在 每 一 步 产 生 修 选项 目 集 时 循环 产生 的 组 合 过 多 ， 没 有 排除 不 应 该 参与 组 合 的 元 乘 ; 


(2) 每 次 计算 项 集 的 支持 度 时 ， 都 对 数据 库 D 中 的 全 部 记录 进行 了 一 通 扫 描 比 较 ， 如 果 是 一 个 
大 型 的 数据 库 的 话 ， 这 种 打 描 比较 会 大 大 增加 计算 机 系统 的 |/O 开 销 。 而 这 种 代价 是 随 着 数据 
库 的 记录 的 增加 呈现 出 几何 级 数 的 增加 。 因 此 人 们 开始 寻求 更 好 性 能 的 算法 。 


六 、 改 进 Apriori 算 法 的 方法 
方法 1 : 基于 hash 表 的 项 集 计 数 


将 每 个 项 集 通过 相应 的 hash 函 数 映射 到 hash 表 中 的 不 同 的 桶 中 ， 这 样 可 以 通过 将 桶 中 的 项 集 
技术 跟 最 小 支持 计数 相 比 较 先 淘汰 一 部 分 项 集 。 


方法 2 : 事务 压缩 (压缩 进一步 迭代 的 事务 数 ) 


不 包含 任何 k- 项 集 的 事务 不 可 能 包含 任何 (k+1)- 项 集 ， 这 种 事务 在 下 一 步 的 计算 中 可 以 加 上 标 
记 或 删除 


方法 3 : 划分 

挖掘 频繁 项 集 只 需要 两 次 数据 扫描 

D 中 的 任何 频繁 项 集 必 须 作 为 局 部 频繁 项 集 至 少 出 现在 一 个 部 分 中 。 

第 一 次 扫描 : 将 数据 划分 为 多 个 部 分 并 找到 局 部 频繁 项 集 

第 二 次 扫描 : 评估 每 个 候选 项 集 的 实际 支持 度 ， 以 确定 全 局 频繁 项 集 。 

方法 4 : 选 样 (在 给 定数 据 的 一 个 子 集 挖掘 ) 

基本 思想 : 选择 原始 数据 的 一 个 样本 ， 在 这 个 样本 上 用 Apriori 算 法 挖掘 频繁 模式 


通过 物 牧 精确 度 来 减少 算法 开销 ， 为 了 提高 效率 ， 样 本 大 小 应 该 以 可 以 放 在 内 存 中 为 宜 ， 可 
以 适当 降低 最 小 支持 度 来 减少 让 漏 的 频繁 模式 


可 以 通过 一 次 全 局 扫 摘 来 验证 从 样本 中 发 现 的 模式 
可 以 通过 第 二 此 全 局 扫描 来 找到 遗漏 的 模式 
方法 5 : 动态 项 集 计 数 


在 扫 拉 的 不 同 点 添加 候选 项 集 ， 这 样 ， 如 果 一 个 候选 项 集 已 经 满足 最 少 支 持 度 ， 则 在 可 以 埋 
接 将 它 添加 到 频繁 项 集 ， 而 不 必 在 这 次 打 接 的 以 后 对 比 中 继续 计算 。 


PS : Apriori 算 法 的 优化 思 


1、 在 了 逐 层 搜索 循环 过 程 的 第 k 步 中 ， 根 据 k-1 步 生成 的 k-1 维 频繁 项 目 集 来 产生 k 维 候选 项 目 
集 ， 由 于 在 产生 k-1 维 频繁 项 目 集 时 ， 我 们 可 以 实现 对 该 集中 出 现 元 素 的 个 数 进行 计数 处 理 ， 
因此 对 某 元 磁 而 言 ， 寿 它 的 计数 个 数 不 到 k-1 的 话 ， 可 以 事先 删除 该 元 素 ， 从 而 排除 由 该 元 素 
将 引起 的 大 规格 所 有 组 合 。 


这 是 因为 对 某 一 个 元 乘 要 成 为 K 维 项 目 集 的 一 元 乘 的 话 ， 该 元 乘 在 k-1 阶 频繁 项 目 集中 的 计数 
次 数 必须 达到 K-1 个 ， 否 则 不 可 能 生成 K 维 项 目 集 (性 质 3)。 


效 据 挖掘 十 大 算法 详解 


2、 根 据 以 上 思路 得 到 了 这 个 候选 项 目 集 后 ， 可 以 对 数据 库 D 的 每 一 个 事务 进行 扫描 ， 知 该 事 
务 中 至 少 含有 候选 项 目 集 Ck 中 的 一 员 则 保留 该 项 事务 ， 否 则 把 该 事物 记录 与 数据 库 末 问 没 
(Fm PR ics Fiz Rte, ABRAHAMS Fin KEM Rit, BAR 
描 完 毕 后 为 新 的 事务 数据 库 D' 中 。 


因此 随 看 K 的 增 大 ，D' 中 事务 记录 量 大 大 地 减少 ， 对 于 下 一 次 事务 扫 拉 可 以 大 大 节约 1/0 开 
销 。 由 于 顾客 一 般 可 能 一 次 只 购买 几 件 商品 ， 因 此 这 种 虚拟 删除 的 方法 可 以 实现 大 量 的 交易 
记录 在 以 后 的 挖掘 中 被 剔除 出 来 ， 在 所 剩余 的 不 多 的 记录 中 再 作 更 高 维 的 数据 挖掘 是 可 以 大 
大 地 节约 时 间 的 。 


实例 过 程 如 下 图 : 


D: SUPPORT=3 





D ——+p ’ 





(由 于 D 中 的 To XSD, RER AS Ea D OSa 5/001 1007500 
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效 据 挖掘 十 大 算法 详解 


由 L2 首先 删除 元 素 出 现 次 数 小 于 2 的 元 素 : 
L; C3 





由 L3 首先 删除 元 素 出 现 次 数 小 于 3 的 元 素 
3 





当然 还 有 很 多 相应 的 优化 算法 ， 比 如 针对 Apriori 算 法 的 性 能 瓶颈 问题 -需要 产生 大 量 候选 项 集 
和 需要 重复 地 扫描 数据 库 ，2000 年 Jiawei Han 等 人 提出 了 基于 FP 树 生成 频繁 项 集 的 FP- 
growth 算 法 。 该 算法 只 进行 2 次 数据 库 扫 描 且 它 不 使 用 候选 集 ， 直 接 压 缩 数 据 库 成 一 个 频繁 模 
式 树 ， 最 后 通过 这 棵 树 生成 天 联 规则 。 研 究 表 明 它 比 Apriori 算 法 大 约 快 一 个 效 量 级 。 


Apriori 
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数据 控 气 十 大 算法 ----EM 算 法 (最 大 期 望 算法 ) 


来 源 : http://blog.csdn.net/u011067360/article/details/23702125 


在 统计 计算 中 ， 最 大 期 望 (EM) 算法 是 在 概率 (probabilistic) 模型 中 寻找 参数 最 大 似 然 估计 
或 者 最 大 后 验 估计 的 算法 ， 其 中 概率 模型 依赖 于 无 法 观测 的 隐藏 交 量 (Latent Variable) 。 


最 大 期 望 经 常用 在 机 器 学 习 和 计算 机 视觉 的 数据 聚 类 (Data Clustering) 领域 。 

可 以 有 一 些 比 较 形象 的 比喻 说 法 把 这 个 算法 讲 清楚 。 

比如 说 食堂 的 大 病 傅 炒 了 一 份 菜 ， 要 等 分 成 两 份 给 两 个 人 吃 ， 显 然 没 有 必要 拿 来 天 平一 点 一 
点 的 精确 的 去 称 分 量 ， 最 简单 的 办 法 是 先 随意 的 把 菜 分 到 两 个 碗 中 ， 然 后 观察 是 否 一 样 多 ， 


把 比较 多 的 那 一 份 取出 一 点 放 到 另 一 个 砚 中 ， 这 个 过 程 一 直达 代 地 执行 下 去 ， 曾 到 大 家 看 不 
出 两 个 砚 所 容纳 的 菜 有 什么 分 量 上 的 不 同 为 止 。 (来 自 百 度 百科 ) 


EM 算法 束 是 这 样 ， 假 设 我 们 估计 知道 A 和 B 两 个 人 参数， 在 开始 状态 下 二 者 都 是 未 知 的， 并 且 知 
道 了 A 的 信息 融 可 以 得 到 B 的 信息 ， 反 过 来 知道 了 B 也 融 得 到 了 A。 可 以 考虑 首先 赋予 A 东 种 初 
值 ， 以 此 得 到 B 的 估计 值 ， 然 后 从 B 的 当前 值 出 发 ， 重 新 估计 A 的 取 值 ， 这 个 过 程 一 下 持续 到 

收敛 为 止 。 


EM 算法 还 是 许多 非 监督 聚 类 算法 的 基础 (如 Cheeseman et al. 1988) ， 而 且 它 是 用 于 学 习 部 


分 可 观察 马尔 可 夫 模 型 (Partially Observable Markov Model) 的 广泛 使 用 的 Baum-Welch 前 
向 后 向 算法 的 基础 。 


信 计 k 个 高 斯 分 布 的 均值 
介绍 EM 算法 最 方便 的 方法 是 通过 一 个 例子 。 


考虑 数据 D 是 一 实例 案 合 ， 它 由 K 个 不 同 正 态 分 布 的 混合 所 得 分 布 所 生成 。 该 问题 框 淋 在 下 图 
中 示 出 ， 其 中 K=2 而 且 实例 为 治 看 Xx 轴 显示 的 点 。 


每 个 实例 使 用 一 个 两 步骤 过 程 形 成 。 
御 先 了 随机 选择 Kk 个 正 态 分 布 其 中 之 一 。 
其 次 随机 变量 xj 按照 此 选择 的 分 布 生 成 。 


这 一 过 程 不 断 重 复 ， 生 成 一 组 数据 点 如 图 所 示 。 为 使 讨论 简单 化 ， 我 们 考虑 一 个 简单 情形 ， 
即 单个 正 态 分布 的 选择 基于 统一 的 概率 进行 选择 ， 并 且 k 个 正 态 分 布 有 相同 的 方差 s<， 且 o< 已 
Ala 


学 习 任务 是 输出 一 个 假设 h=<y1...Wk>， 它 描述 了 k 个 分 布 中 每 一 个 分 布 的 均值 。 我 们 希望 对 
itt 


这 些 均 值 找到 一 个 极 大 似 然 假设 ， 即 一 个 使 P(DI|h) 最 大 化 的 假设 h。 


Px) 





注意 到 ， 当 给 定 从 一 个 正 态 分 布 中 抽取 的 数据 实例 x1,x2, .… Xm 时 ， 很 容易 计算 该 分 布 的 均值 
的 极 大 似 然 假设 。 


其 中 我 们 可 以 证 明 极 大 似 然 假 设 是 使 m 个 训练 实例 上 的 误 磊 平方 和 最 小 化 的 假设 。 
使 用 当 表 述 一 下 式 ， 可 以 得 到 : 


i=] 


AMI 


(公式 一 ) 
然而 ， 在 这 里 我 们 的 问题 涉及 到 k 个 不 同 正 态 分 布 的 混合 ， 而 且 我 们 不 能 知道 哪个 实例 是 哪个 
分 布 产生 的 。 因 此 这 是 一 个 涉及 隐藏 变量 的 典型 例子 。 
EM 算法 步 又 
在 上 图 的 例子 中 ， 可 把 每 个 实例 的 完整 描述 看 作 是 三 元 组 <xj,zi1, zp>， 其 中 X 是 第 /个 实例 的 
观测 值 ，Z1 和 Zr2 表 示 两 个 正 态 分 布 中 哪个 伏 用 于 产生 值 Xi。 
确切 地 讲 ，zjj 在 Xj 由 第 /个 正 态 分 布 产生 时 值 为 1， 否 则 为 0。 这 里 xj 是 实例 的 描述 中 已 观察 到 的 
变量 ，Zi1 和 Zj2 是 隐 闫 变量。 如果 zj1 和 Zzj2 的 值 可 知 ， 束 可 以 用 式 一 来 解决 均值 U1 和 JW2。 因 为 
它们 未 知 ， 因 此 我 们 只 能 用 EM 算法 。 


EM 算法 应 用 于 我 们 的 /均值 问题 ， 目 的 是 搜索 一 个 极 大 似 然 假 设 ， 方 法 是 根据 当前 假设 <U1.…. 
HKk> 不 断 地 再 估计 隐藏 变量 zj 的 期 望 值 。 然 后 用 这 些 隐 藏 变量 的 期 媒 值 重新 计算 极 大 似 然 假 
设 。 这 里 首先 描述 这 一 实例 化 的 EM 算法 ， 以 后 将 给 出 EM 算法 的 一 般 形式 。 


为 了 估计 上 图 中 的 两 个 均值 ，EM 算 法 首先 将 假设 初始 化 为 h=<w1,42>， 其 中 w1 和 W2 为 任意 的 
初始 值 。 然 后 重复 以 下 的 两 个 步 又 以 重 估 计 h， 军 到 该 过 程 收敛 到 一 个 稳定 的 h 值 。 


步骤 1 : 计算 每 个 隐藏 变量 zj 的 期 望 值 E[zjj， 假 定 当前 假设 p=<p1,W2> 成 立 。 


入 


步骤 2 : 计算 一 个 新 的 极 大 似 然 假 设 h' =<H1 2 >, 假定 由 每 个 隐藏 变量 Z 所 取 的 值 为 第 1 步 中 
得 到 的 期 望 值 E[zjj， 然后 料 假设 h=<w1,u2> 蔡 换 为 新 的 假设 h =< u >， 然 后 循环 。 

现在 考察 第 一 步 是 如 何 实现 的 。 步骤 1 要 计算 每 个 zj 的 期 望 值 。 此 Ez 站 正 是 实例 Xj 由 第 /个 正 态 
分 布 生 成 的 概率 : 


PhS | = 





| 
i E x, | = L) 
ala H] 
p £ 
4 (4) aT 





因此 第 一 步 可 由 将 当前 值 <U1,W2> 和 已 知 的 X 代 入 到 上 式 中 实现 。 


在 第 二 步 ， 使 用 第 1 步 中 得 到 的 E[zj 来 导出 一 新 的 极 大 似 然 假设 h'=<p1 ,HW2 >。 如 后 面料 讨论 
这 


到 的 ， 这 时 的 极 大 似 然 假设 为 : 
be Ez, |x, 
H; <— as rea 
2 Eleg] 


注意 此 表达 式 类 似 于 公式 一 中 的 样本 均值 ， 它 用 于 从 单个 正 态 分 布 中 信 计 Hw。 新 的 表达 式 只 是 
对 Wj 的 加 权 样 本 均值 ， 每 个 实例 的 权重 为 其 由 第 /个 正 态 分 布 产生 的 期 望 值 。 


上 面 估计 Kk 个 正 态 分 布 均值 的 算法 换 述 了 EM 方法 的 要 点 : 即 当 前 的 假设 用 于 估计 未 知 变 量 ， 
而 这 些 变量 的 期 望 值 再 个 用 于 改进 假设 。 


可 以 证 明 ， 在 此 算法 第 一 次 循环 中 ，EM 算 法 能 使 似 然 性 P(D|h) 增 加 ， 除 非 它 已 达到 局 部 的 最 
大 。 因 此 该 算法 收敛 到 对 于 <HW1,u42> 的 一 个 局 部 极 大 可 能 性 假设 。 


EM 算法 的 一 般 表 述 


上 面 的 EM 算法 针对 的 是 估计 混 合 正 态 分 布 均值 的 问题 。 更 一 般 地 ，EM 算 法 可 用 于 许多 问题 
框 染 ， 其 中 需要 估计 一 组 摘 述 基准 概率 分 布 的 参数 GO， 只 给 定 了 由 此 分 布 产生 的 全 部 数据 中 能 
观察 到 的 一 部 分 。 


在 上 面 的 二 均值 问题 中 ， 感 兴趣 的 参数 为 G0=<W1,u2>， 而 全 部 数据 为 三 元 组 <xij,Zi4, Zo, Mm 
只 有 Xj 可 观察 到 ， 一 般 地 合 X=<x1, ...,Xm> 代 表 在 同样 的 实例 中 已 经 观察 到 的 数据 ， 并 爸 
Y=XUZ 代 表 全 体 数 据 。 注 意 到 未 观察 到 的 Z 可 被 看 作 一 随机 变量 ， 它 的 概率 分 布依 赖 于 未 知 参 
数 96 和 已 知 数据 X。 类 似 地 ，Y 是 一 随机 变量 ， 因 为 它 是 由 随机 变量 Z 来 定义 的 。 在 后 续 部 分 ， 
将 描述 EM 算法 的 一 般 形式 。 使 用 hp 来 代表 参数 9 的 假设 值 ， 而 h "代表 在 EM 算法 的 每 次 迭代 中 
修改 的 假设 。 


EM 算法 通过 搜寻 使 EllInP(YIhp9] 最 大 的 户 来 寻找 极 大 似 然 假 设 广 。 此 期 望 值 是 在 Y 所 遵循 的 概 
率 分 布 上 计算 ， 此 分 布 由 未 知 参 数 6 确定 。 考 虑 此 表达 式 究 竟 意 味 了 什么 。 


自 先 P(YIh ) 是 给 定 假设 h' 下 全 部 数据 Y 的 似 然 性 。 其 合理 性 在 于 我 们 要 寻找 一 个 hh 使 该 量 的 菏 
图 数值 最 大 化 。 


其 次 使 该 量 的 对 数 InP(YIh ) 最 大 化 也 使 P(YIh') 最 大 化 ， 如 已 经 介绍 过 的 那样 。 
第 三 ， 引 入 期 望 值 E[InP(YIh )] 是 因为 全 部 数据 Y 本 和 上映 也 是 一 随机 变量 。 


已 知 全 部 数据 Y 是 观察 到 的 X 和 未 观察 到 的 Z 的 合并 ， 我 们 必须 在 未 观察 到 的 Z 的 可 能 值 上 取 平 
均 ， 并 以 相应 的 概率 为 权 值 。 换 言 之 ， 要 在 随机 变量 Y 意 循 的 概率 分 布 上 取 期 望 值 E[InP(YIh 
)]。 该 分 布 由 完全 已 知 的 X 值 加 上 2Z 服 从 的 分 布 来 确定 。 


Y 遵 从 的 概率 分 布 是 什么 ? 一 般 来 说 不 能 知道 此 分 布 ， 因 为 它 是 由 待 估计 的 6 参数 确定 的 。 然 
而 ，EM 算 法 使 用 其 当前 的 假设 h 代 蔡 实 际 人 参数 G9， 以 估计 Y 的 分 布 。 现 定义 一 函数 Q(h'|h)， 它 
将 EIInP(YIh )] 作 为 hh 的 一 个 男 数 给 出 ， 在 9=h 和 全 部 数据 Y 的 观察 到 的 部 分 X 的 假定 之 下 。 
Q| A) = Enp |A')| 2,4] 

将 Q 男 数 写成 Q(h“|h) 是 为 了 表示 其 定义 是 在 当前 假设 h 等 于 6 的 假定 下 。 在 EM 算法 的 一 般 形 式 
里 ， 它 重复 以 下 两 个 步骤 直至 收 伊 。 

步骤 1 : 估计 (E) 步骤 : 使 用 当前 假设 h 和 观察 到 的 数据 X 来 估计 Y 上 的 概率 分 布 以 计算 Q(h 
|h) 

OA A) e Bn PY | A") | 4, 4] 

步骤 2 : 最 大 化 (M) 步骤 : 将 假设 h 蔡 换 为 使 Q 函 数 最 大 化 的 假设 h”: 


i e arg max @(f'| A) 
i 


SRM QE, EMEA M SIAR EIP( Yh) —PARab rm. ALIA BPS AERA 
值 时 ，EM 算 法 可 以 收 么 到 这 个 对 户 的 全 局 的 极 大 似 然 佑 计 。 人 否则 ， 它 只 保证 收敛 到 一 个 局 部 
最 大 值 。 因 此 ，EM 与 其 他 最 优化 方法 有 同样 的 局 限 性 ， 如 之 前 讨论 的 梯度 下 降 ， 线 性 搜索 和 
变形 梯度 和 寺 。 


总 结 来 说 ，EM 算 法 就 是 通过 和 迭代 地 最 大 化 完整 数据 的 对 数 似 然 丁 数 的 期 望 ， 来 最 大 化 不 完整 
数据 的 对 数 似 然 画 数 。 


PageRank 


来 源 : http://baike.baidu.com/view/844648.htm 


PageRank， 网 页 排名 ， 又 称 网 页 级 别 、Google 左 侧 排 名 或 佩 奇 排名 ， 是 一 种 由 [1] 根据 网 页 
之 间 相 互 的 超 链接 计算 的 拉 术 ， paren 网 页 排名 的 要 素 之 一 ， 以 Google 公 司 创办 人 拉 里 : 佩 奇 
(Larry Page) 之 姓 来 命名 。Google 用 它 来 体现 网 页 的 相关 性 和 重要 性 ， 在 搜索 引擎 优化 操 
作 中 是 经 党 被 用 来 评估 网 页 优化 的 成 效 因 素 之 一 。Google 的 创始 人 拉 里 : 佩 奇 和 谢 尔 盖 : 布 林 于 

1998 年 在 斯 坦 福 大 学 发 明了 这 项 技术 。 


PageRank 通 过 网 络 浩瀚 的 超 链 接 关 系 来 确定 一 个 页 面 的 等 级 。Google 把 从 A 页 面 到 B 页 面 的 
链接 解释 为 A 页 面 给 B 页 面 投票 ，Google 根 据 投 票 来 源 〈 甚 至 来 源 的 来 源 ， 即 链接 到 A 页 面 的 
RH) 和 投票 目标 的 等 级 来 决定 新 的 等 级 。 简 Pe 一 个 高 等 级 的 页 面 可 以 使 其 他 低 等 级 
页 面 的 等 级 提升 。 


PageRank 是 Google 专 有 的 算法 ， 用 于 衡量 特定 网 页 相对 于 搜索 引擎 过 引 中 的 其 他 网 页 而 童 的 
重要 程度 。 它 由 Larry Page 和 Sergey Brin 在 20 世 纪 90 年 代 后 期 发 明 。PageRank 实 现 了 将 链 
接 价值 概念 作为 排名 因素 。 


PageRank 将 对 页 面 的 链接 看 成 投票 ， 指 示 了 重要 性 。 


算法 
PageRank 让 链接 来 "投票 " 


一 个 页 面 的 “得 票数 ”由 所 有 和 链 向 它 的 页 面 的 重要 性 来 决定 ， 到 一 个 页 面 的 超 链 接 相当 于 对 该 页 

投 一 票 。 一 个 页 面 的 PageRank 是 由 所 有 和 链 向 它 的 页 面 (“ 链 入 页 面 ") 的 重要 性 经 过 递 汶 算法 

pares 一 个 有 较 多 链 入 的 页 面 会 有 较 高 的 等 级 ， 相 反 如 果 一 个 页 面 没有 任何 链 入 页 面 ， 那 
么 它 没 有 等 级 。 


2005 年 初 ，Google 为 网 页 链接 推出 一 项 新 属性 nofollow， 使 得 网 站 管理 员 和 网 站 作者 可 以 做 
出 一 些 Google 不 计 票 的 链接 ， 也 束 是 说 这 些 链接 不 算 作 "投票 "。nofollow 的 设置 可 以 抵制 评论 
垃圾 。 


假设 一 个 由 4 个 页 面 组 成 的 小 团体 : A，B，C 和 D。 如 果 所 有 页 面 都 链 向 A， 那 么 人 的 
PR (PageRank) 值 业 是 B，C 及 D 的 Pagerank 总 和 。 


PR(A) = PR(B)+ PR(C)+ PR(D) 


继续 假设 B 也 有 链接 到 C， 并 且 D 也 有 链接 到 包括 A 的 3 个 页 面 。 一 个 页 面 不 能 投票 2 次 。 所 以 B 
给 每 个 页 面 半 票 。 以 同样 的 逻辑 ，D 投 出 的 票 只 有 三 分 之 一 算 到 了 A 的 PageRank 上 。 


PR(B) | PR(C) | PR(D) 
PR(A)= — a a a 


换 名 话说， 根据 链 出 总 数 平 分 一 个 页 面 的 PR 值 。 
PR(B) | PR(C) _ PR(D) 
LIB LC} L(D) 


最 后 ， 所 有 这 些 被 换算 为 一 个 百分比 再 乘 上 一 个 系数 。 ep 传递 出 去 的 


PR(A) = 





PageRank 会 是 0， 所 以 ，Google 通 过 数学 系统 给 了 每 个 页 面 一 个 最 小 值 : 
/PR(B) PR(C) PR(D) \. 1-d 
PRIA =|- + O Lic) 一 LD) Hecate cc d+ —— 


说 明 : 在 Sergey Brin 和 Lawrence Page 的 1998 年 原文 中 给 每 一 个 页 面 设 定 的 最 小 值 是 1-d， 而 

不 是 这 里 的 (1-d)/N。 所 以 一 个 页 面 的 PageRank 是 由 其 他 页 面 的 PageRank 计 算得 到 。 

Coo TH = ns 如 果 给 每 个 页 面 一 个 随机 PageRank 值 (3E 
0) ， 那 么 经 过 不 断 的 重复 计算 ， 这 些 页面 的 PR 值 会 趋 癌 于 稳定 ， 也 融 是 收 仇 的 状态 。 这 融 

是 搜索 引擎 使 用 它 的 原因 。 


指标 


Google 工 具 条 上 的 PageRank 指 标 从 0 到 10。 它 似乎 是 一 个 对 数 标 度 算法 ， 细 节 未 知 。 
PageRank 是 Google 的 丙 标 ， 其 技术 亦 已 经 申请 专利 。 


PageRank 近 似 于 一 个 用 户 ， 是 指 在 Internet 上 随机 地 单 击 链接 将 会 到 达 特 定 网 页 的 可 能 性 。 
通常 ， 能 够 从 更 多 地 方 到 达 的 网 页 更 为 重要 ， Se 每 个 i 他 网 页 的 
链接 ， 都 增加 了 该 网 页 的 PageRank。 具 有 较 高 PageRank 的 网 页 一 般 都 是 通过 更 多 其 他 网 页 
的 链接 而 提高 的 。 


为 了 查看 站 点 PageRank， 请 安装 GOOGLE 工 具 条 并 启用 PageRank 特 性 ， 或 者 在 firefox 安 装 
SearchStatus 插 件 。 但 是 请 注意 ，GOOGLE 所 指示 的 PageRank 是 个 缓冲 值 ， 通 常 是 过 时 
的 。 


更 新 频率 


PageRank 值 每 年 只 发 布 几 次 ， 有 时 融 得 使 用 过 时 信息 ， 因 此 ，PageRank 并 不 是 一 个 非常 精 
确 的 度量 。GOOGLE 自 己 也 似乎 在 使 用 更 精确 的 值 来 进行 排名 。 


在 GOOGLE 使 用 来 构造 搜索 结果 页 面 的 采集 算法 中 ，PageRank 只 是 其 中 的 一 个 因素 。 有 可 
能 在 特定 查询 下 ， appa inc Seti 够 排 在 具有 较 高 PageRank 的 页 面前 面 。 
PageRank 也 不 一 定 是 相关 的 ， 它 使 用 链接 来 衡量 整体 受 欢 迎 程度 ， 而 不 是 使 用 相关 主题 。 


GOOGLE 在 计算 搜索 排名 时 也 考虑 链接 的 相关 程度 ， 因 此 PageRank 不 应 该 成 为 搜索 引擎 营 
销 的 唯一 重点 。 构 建 相关 链接 ， 通 常 也 自然 会 带 来 较 高 的 PageRank。 此 外 ， 为 了 提高 
PageRank 而 特意 构建 太 多 的 不 相关 链接 也 有 可 能 损害 站 点 的 排名 ， 因 为 GOOGLE 试 图 检测 
并 对 不 相关 链接 降 分 ， 认 为 这 种 链接 是 用 于 提高 排名 得 分 的 。 


PageRank 还 被 用 户 广 泛 认 为 是 站 点 可 靠 的 因素 ， 因 为 用 户 倾 向 于 相信 带 有 和 较 高 值 的 站 点 园 为 
著名 或 权威 。 当 然 ， 这 惑 是 PageRank 所 设计 的 目标 。 这 个 概念 是 GOOGLE 所 认可 的 ， 因 此 
GOOGLE 通 过 减少 或 清 需 PageRank 来 惩罚 那些 垃圾 或 不 相关 站 点 。 


其 它 算法 


GOOGLE PageRank 并 不 是 唯一 的 链接 相关 的 排名 算法 ， 而 是 最 为 广泛 使 用 的 一 种 。 其 他 算 
法 还 有 : 


、Hilltop 算法 
—, ExpertRank 
=, HITS 


PY. TrustRank 


数据 挖掘 算法 学 习 (/\) Adaboost 算 法 


来 源 : http://blog.csdn.net/iemyxie/article/details/40423907 


Adaboost 是 一 种 迭代 算法 ， 其 核心 思想 是 针对 同一 个 训练 集训 练 不 同 的 分 类 器 (992% 

as) ， 然 后 把 这 些 弱 分 类 器 集合 起 来 ， 构 成 一 个 更 强 的 最 终 分 类 器 ( 强 分 类 器 ) 。Adaboost 
算法 本 身 是 通过 改变 数据 分 布 来 实现 的 ， 它 根据 每 次 训练 集 之 中 每 个 样本 的 分 类 是 否 正确 ， 
以 及 上 次 的 总 体 分 类 的 准确 率 ， 来 确定 每 个 样本 的 权 值 。 将 修改 过 权 值 的 新 数据 集 送 给 下 层 
分 类 器 进行 训练 ， 最 后 将 每 次 得 到 的 分 类 器 最 后 融合 起 来 ， 作 为 最 后 的 决策 分 类 器 。 

算法 概述 

1、 先 通过 对 N 个 训练 样本 的 学 习 得 到 第 一 个 弱 分 类 器 ; 2、 将 分 错 的 样本 和 其 他 的 新 数据 一 
起 构成 一 个 新 的 N 个 的 训练 样本 ， 通 过 对 这 个 样本 的 学 习 得 到 第 二 个 弱 分 类 器 ; 3、 将 1 和 2 都 
分 错 了 的 样本 加 上 其 他 的 新 样本 构成 另 一 个 新 的 N 个 的 训练 样本 ， 通 过 对 这 个 样本 的 学 习 得 到 
第 三 个 弱 分 类 器 4、 最 终 经 过 提升 的 强 分 类 器 。 即 某 个 数据 被 分 为 哪 一 类 要 由 各 分 类 器 权 值 决 
定 。 


与 boosting 算 法 比较 
1. 使 用 加 权 后 选取 的 训练 数据 代 蔡 随机 选取 的 训练 样本 ， 这 样 料 训练 的 焦点 集中 在 比较 难 分 
的 训练 数据 样本 上 ; 2. 将 弱 分 类 器 联合 起 来 ， 使 用 加 权 的 投票 机 制 代 蔡 平 均 投票 机 制 。 


让 分 类 效果 好 的 弱 分 类 器 具有 较 大 的 权重 ， 而 分 类 效果 大 的 分 类 器 具有 较 小 的 权重 。 


与 Boosting 算 法 不 同 的 是 ，AdaBoost 算 法 不 需要 预先 知道 弱 学 习 算 法 学 习 正 确 率 的 下 限 即 弱 
分 类 器 的 误差 ， 并 且 最 后 得 到 的 强 分 类 器 的 分 类 精度 依赖 于 所 有 弱 分 类 器 的 分 类 精度 ， 这 样 
可 以 深入 挖掘 弱 分 类 器 算法 的 能 


算法 步骤 


1. 给 定 训 练 样 本 集 S， 其 中 X 和 Y 分 别 对 应 于 正 例 样本 和 负 例 样本 ; T 为 训练 的 最 大 循环 次 数 ; 


2. 初始 化 样本 权重 为 1/n ， 即 为 训练 样本 的 初始 概率 分 布 ; ”3. 第 一 次 迭代 : (1) 训 练 样本 
的 概率 分 布 相当 ， 训 练 弱 分 类 器 ;(2) 计 算 弱 分 类 器 的 错误 率 ;(3) 选 取 合适 阔 值 ， 使 得 误差 最 
小 ; (4) 更 新 样本 权重 ; 经 T 次 循环 后 ， 得 到 T 个 弱 分 类 器 ， 按 更 新 的 权重 登 加 ， 最 终 得 
到 的 强 分 类 器 。 

具体 步骤 如 下 : 

一 .样本 


Given: m examples (x1, y1), .., (xm, ym) 
where xiX, y1Y={-1, +1} 
Xi 表示 X 中 第 i 个 元 素 ， 
yi 表示 与 Xi 对 应 元 素 的 属性 值 ，+1 表 示 xi 属 于 某 个 分 类 ， 
-1 表示 xi 不 属于 某 个 分 类 


二 .初始 化 训练 样本 


Xi 的 权重 D(i) :i=1,......，m; 
(1) .车 正 负 样本 数目 一 - 致 ， D1(i) = 1/m 
(2). 若 正 负 样 本 数目 m+，m- 则 正 样 本 D1(i) = 1/m+, 
负 样 本 D1(i) = 1/m- 
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实例 详解 





图 中 “+” 和 “表示 两 种 类 别 。 我 们 用 水 平 或 者 垂下 的 直线 作为 分 类 器 进行 分 类 。 
算法 开始 前 默认 均匀 分 布 D， 共 10 个 样本 ， 故 每 个 样本 权 值 为 0.1. 
— RYH : 





一 次 划分 有 3 个 点 划分 错误 ， 根 据 误差 表达 式 


E „= E [| y; AR ` 
E >a f ih, (x) 计算 可 得 el1= (0.1+0.1+0.1) /1.0=0.3 











DBE : 
ee.) = | 
a,=tin *}=5In|- -|=0.42 
2 E] 2 3 | 


数据 挖掘 十 大 算法 详解 


然后 根据 算法 把 错 分 点 的 权 值 变 大 。 对 于 正确 分 类 的 7 个 感 ， 权 值 不 变 ， 仍 为 0.1, 对 于 错 分 的 3 


个 氮 ， 权 值 为 : 


D1=D0*(1-e1)/e1=0.1*(1-0.3)/0.3=0.2333 


第 二 次 分 类 : 





Ir 


如 图 所 示 ， 有 3 个 "-" 分 类 错误 。 上 轮 分 类 后 权 值 之 和 为 : 0.17+0.23333=1.3990 
分 类 误差 : e2=0.1*3/1.3990=0.2144 

分 类 器 权重 a2=0.6493 

错 分 的 3 个 点 权 值 为 : D2=0.1* (1-0.2144) /0.2144=0.3664 


第 三 次 分 类 : 





同上 步骤 可 求 得 : e3=60.1365 ; a3=0.9223 ; D3=0.6326 
最 终 的 强 分 类 器 即 为 三 个 弱 分 类 器 的 和合 加 ， 如 下 图 所 示 : 


final 


i” mm 
TAE ka = 0.92 ) 
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每 个 区 域 是 属于 哪个 属性 ， 由 这 个 区 域 所 在 分 类 器 的 权 值 综合 决定 。 上 比如 左下 角 的 区 域 ， 属 
于 蓝 色 分 类 区 的 权重 为 h1 中 的 0.42 和 h2 中 的 0.65， 其 和 为 1.07 ; 属于 淡 红色 分 类 区 域 的 权重 
为 h3 中 的 0.92 ; 属于 淡 红 色 分 类 区 的 权重 小 于 属于 蓝 色 分 类 区 的 权 值 ， 因 此 左下 角 属 于 蓝 色 
分 类 区 。 因 此 可 以 得 到 整合 的 结果 如 上 图 所 示 ， 从 结果 图 中 看 ， 即 使 是 简单 的 分 类 器 ， 组 合 
起 来 也 能 获得 很 好 的 分 类 效果 。 


分 类 器 权 值 调整 的 原因 





由 公式 可 以 看 到 ， 权 值 是 关于 误 磊 的 表达 式 。 每 次 达 代 都 会 提高 错 分 点 的 权 值 ， 当 下 一 次 分 
类 器 再 次 错 分 这 些 点 之 后 ， 会 所 高 整体 的 错误 率 ， 这 样 束 导致 分 类 器 权 值 变 小 ， 进 而 导致 这 
个 分 类 器 在 最 终 的 混合 分 类 器 中 的 权 值 变 小 ， 也 束 是 说 ，Adaboost 算 法 让 正确 率 高 的 分 类 器 
占 整 体 的 权 值 更 局 ， 让 正确 率 低 的 分 类 器 权 值 更 低 ， 从 而 提高 最 终 分 类 器 的 正确 率 。 


算法 优 缺 点 
TRA 


1)Adaboost 是 一 种 有 很 高 精度 的 分 类 器 2) 可 以 使 用 各 种 方法 构建 子 分 类 器 ,Adaboost 算 法 提供 
的 是 框架 3) 当 使 用 简单 分 类 器 时 ， 计 算出 的 结果 是 可 以 理解 的 。 而 且 弱 分 类 器 构造 极其 简 
4) 简 单 ， 不 用 做 特征 第 选 5) 不 用 担心 overfitting( 过 度 拟 合 ) 


缺点 

1) 容 易 受 到 噪声 干扰 ， 这 也 是 大 部 分 算法 的 缺点 
2) 训 练 时 间 过 长 

3) 执 行 效果 依赖 于 弱 分 类 器 的 选择 


SQL 实现 


AFIRE 
while(@i<=3) do 
set @evalue=0, @temp=0; 
set @flagi=0, @flag2=0, @flag3=0, @Fflag4=0; 
set @las=concat('d',@1i-1); 
set @cur=concat('d',@1); 
set @a=concat('select hx,hy into @hx,@hy from hea where id = ',@1); 
prepare stmti from Qa; 
execute stmt1; 
set @aa=concat('update adaset set ',@cur,' = ',@las); 
prepare stmtii1 from Qaa; 
execute stmti11; 
#1.D 25 4 BBxt By 
if (@hy=0) then 
# 处 理 分 类 1 
set @b=concat('select count(class) into @l_1 from adaset where class=1 and x < ', 
prepare stmt2 from @b; 
execute stmt2; 
set @c=concat('select count(class) into @l_2 from adaset where class=-1 and x < ' 
prepare stmt3 from @c; 
execute stmt3; 
if(@1_1=0 and @1_2!=0) then 


set @clas=concat('update hea set l=-1 where id = ',@1); 
prepare stmt28 from @clas; 
execute stmt28; 


end if; 
if(@1_1!=0 and @1 2 =0) then 
set @clas=concat('update hea set 1=1 where id = ',@1); 


prepare stmt29 from @clas; 
execute stmt29; 
end if; 
set @weight=concat('d',@1i-1); 
if (@1_1 !=0 and @1_2 !=0 and @1_1>@1_2) then #@]_2 是 错 分 点 
set @d=concat('select sum(',@weight,') into @temp from adaset where class=-1 
prepare stmt4 from @d; 
execute stmt4; 
set @evalue=@evalue+@temp; 
set @flagi=1; 
set @clas=concat('update hea set 1=1 where id = ',@1); 
prepare stmt20 from @clas; 
execute stmt20; 
end if; 
if (@1_1 !=0 and @1_2 !=0 and @1_1<@1_2) then #@1_1 是 错 分 点 
set @d=concat('select sum(',@weight,') into @temp from adaset where class=1 a 
prepare stmt5 from @d; 
execute stmt5; 
set @evalue=@evalue+@temp; 
set @flag2=1; 
set @clas=concat('update hea set l=-1 where id = ',@1); 
prepare stmt21 from @clas; 
execute stmt21; 
end if; 
# ALEGRE 
set @h=concat('select sum(',@weight,') into @temp from adaset'); 
prepare stmti0 from Qh; 
execute stmt10; 
set @evalue = round(@evalue/@temp, 4); 
set @avalue = round((0.5*1n((1-@evalue)/@evalue)),4); 
set @eee=round((1-@evalue)/@evalue, 4); 
# 更 新 误差 e& 假 设 权 重 a 
set @j=concat('update hea set e = ',@evalue,' ,a = ',@avalue,' where id = ',@1); 
prepare Stmt11 from Qj; 
execute stmt11; 
# 更 新 错 分 样本 的 权重 
if (@hy=0) then 
if (@flagi=1) then 
set @k=concat('update adaset set ',@cur, ' ', _@las, '*',@eee, ' where class=-1 
prepare Stmt12 from @k; 
execute stmt12; 


end if; 
if (@flag2=1) then 
set @m=concat('update adaset set ',@cur,' = ',@las,'*',@eee,' where class=1 a 


prepare Stmt13 from @m; 
execute stmt13; 


end if; 
if (@flag3=1) then 
set @n=concat('update adaset set ',@cur,' = ',@las, '*',@eee, ' where class=-1 


prepare Stmt14 from @n; 
execute stmt14; 


end if; 
if (@flag4=1) then 
set @o=concat('update adaset set ',@cur,' = ',@las,'*',@eee,' where class=1 a 


prepare stmti5 from Qo; 
execute stmt15; 
end if; 
end if; 
set @1=@1+1; 
end while; 


-| ë 





以 上 是 博 主 最 近 用 SQL 实现 的 Adaboost 算 法 的 部 分 代码 。 数 据 库 表 以 后 整理 一 下 再 贴 。 
Ubuntu 不 稳定 啊 ， 死 机 两 次 了 。。 编 辑 的 博客 都 没 了 。。 累 觉 不 爱 。。 

个 人 疑问 

上 文中 的 缺点 提 到 ，Adaboost 算 法 的 效果 依赖 于 弱 分 类 器 的 选择 ， 那 么 面 对 巨 大 的 竺 分 类 数 
据 时 ， 如 何 选 择 弱 分 类 呢 ? 有 没有 什么 原则 。 博 主 依旧 在 探索 中 ， 找 到 答案 的 话 会 在 这 里 更 
新 。 


推荐 资料 : 由 Adaboost 算 法 创始 人 Freund 和 Schapire 写 的 关于 Adaboost 算 法 的 文档 ， 我 已 经 
E a 


效 据 挖掘 十 大 算法 --K 近 和 邻 算 法 


来 源 : http://blog.csdn.net/u011067360/article/details/23941577 
k- 近 邻 算 法 是 基于 实例 的 学 习 方 法 中 最 基本 的 ， 先 介绍 基于 实例 学 习 的 相关 概念 。 
一 、 基 于 实例 的 学 习 。 


1、 已 知 一 系列 的 训练 样 例 ， 很 多 学 习 方 法 为 目标 范 数 建立 起 明确 的 一 般 化 描述 ; 但 与 此 不 
同 ， 基 于 实例 的 学 习 方 法 只 是 简单 地 把 训练 样 例 存 储 起 来 。 


从 这 些 实例 中 沁 化 的 工作 被 推迟 到 必须 分 类 新 的 实例 时 。 每 当 学 习 器 遇 到 一 个 新 的 查询 实 
例 ， 它 分 析 这 个 新 实例 和 与 以 前 存储 的 实例 的 关系 ， 并 据 此 把 一 个 目标 加 数值 赋 给 新 实例 。 


2、 基 于 实例 的 方法 可 以 为 不 同 的 竺 分 类 查询 实例 建立 不 同 的 目标 男 数 运 近 。 事 实 上 ， 人 很 多 拉 
术 只 建立 目标 本 数 的 局 部 远近 ， 将 其 应 用 于 与 新 查询 实例 邻近 的 实例 ， 而 从 不 建立 在 整个 实 
例 空 间 上 都 表现 民 好 的 逼近 。 当 目标 范 数 很 复杂 ， 但 它 可 用 不 太 复 条 的 局 部 逼近 摘 述 时 ， 这 
样 做 有 显著 的 优势 


3、 基 于 实例 方法 的 不 足 : 


(1) 分 类 新 实例 的 开销 可 能 很 大 。 这 是 因为 几乎 所 有 的 计算 都 发 生 在 分 类 时 ， 而 不 是 在 第 
次 过 到 训练 样 例 时 。 所 以 ， 如 何 有 效 地 索引 训练 样 例 ， 以 减少 查询 时 所 需 计 算是 一 个 重要 的 
实践 问题 。 


(2) 当 从 存储 器 中 检索 相似 的 训练 样 例 时 ， 它 们 一 般 考虑 实例 的 所 有 属性 。 如 果 目 标 概 念 仅 
依赖 于 很 多 属性 中 的 几 个 时 ， 那 么 真正 最 “相似 ”的 实例 之 间 很 可 能 相距 甚 远 。 


二 、k- 近 邻 法 


基于 实例 的 学 习 方 法 中 最 基本 的 是 Kk- 近 邻 算 法 。 这 个 算法 假定 所 有 的 实例 对 应 于 n 维 欧 氏 空间 
An 中 的 点 。 一 个 实例 的 最 近邻 是 根据 标准 欧 氏 距离 定义 的 。 更 精确 地 讲 ， 把 任意 的 实例 x 表示 
为 下 面 的 特征 向 量 : 


a4(X), a2(x), ..., A(X) 


其 中 ax(x) 表 示 实 例 x 的 第 /个 属性 值 。 那 么 两 个 实例 Xj 和 Xj 间 的 距离 定义 为 q(xi,Xj))， 其 中 : 





Te 


r=] 


d(x, x)= 


说 明 : 


1、 在 最 近邻 学 习 中 ， 目 标 图 数值 可 以 为 离散 值 也 可 以 为 实 值 。 


2、 我 们 先 考 虑 学 习 以 下 形式 的 离散 目标 画 数 ./ : ROM, HhVEAREAIV, Vs} F 
表 给 出 了 逼近 离散 目标 画 数 的 扩 -近邻 算 法 。 


3、 正 如 下 表 中 所 指出 的 ， 这 个 算法 的 返回 值 f(xg) 为 对 用 xg) 的 估计 ， 它 就 是 距离 xg 最 近 的 k 个 
训练 样 例 中 最 普通 的 f 值 。 


4、 如 果 我 们 选择 k=1， 那 么 “1- 近 邻 算 法 ” 束 把 fxj) 赋 给 >q) 其 中 Xi 是 最 靠近 xg 的 训练 实例 。 
于 较 大 的 k 值 ， 这 个 算法 返回 前 k 个 最 靠近 的 训练 实例 中 最 se mie. 
0 BS ae AF Am</sup>V 的 _K- 近 邻 算法 

训练 算法 : 

对 于 每 个 训练 样 例 < X , f ( x _)>， 把 这 个 样 例 加 入 列表 training _examples 

分 类 算法 : 

给 定 一 个 要 分 类 的 查询 实例 Xg 


在 training __examples 中 选 出 最 靠近 xg 的 k 个 实例 ， 并 用 x1....Xk 表 示 


yx [o] 
a ke | 
f(x,)< arg max > 0 f(x;)) 
i= 


其 中 如 果 a=b 那 么 dq(a,b)=1， 否 则 qd(a,b)=0。 


下 图 图 解 了 一 种 简单 情况 下 的 k- 近 邻 算法 ， 在 这 里 实例 是 二 维 空间 中 的 感 ， 目 标 图 数 具 有 布尔 
值 。 正 有 反 训练 样 例 用 "+" 和 "-" 分 别 表 示 。 图 中 也 画 出 了 一 个 查询 点 xg。 注 意 在 这 幅 图 中 ，1- 近 
邻 算法 把 Xg 分 类 为 正 例 ， 然 而 5- 近 邻 算法 把 Xo 分 类 为 反例 。 





图 解说 明 : 左 图 画 出 了 一 系列 的 正 反 训练 衬 例 和 一 个 要 分 类 的 查询 实例 Xxg。(1- 近 邻 算法 把 Xo 
分 类 为 正 例 ， 然 而 5- 近 邻 算法 把 xg 分 类 为 反例 。 


右 图 是 对 于 一 个 典型 的 训练 样 例 集 合 1- 近 邻 算法 导致 的 决策 面 。 围 绕 每 个 训练 样 例 的 凸 多 边 形 
表示 最 靠近 这 个 点 的 实例 空间 〈 即 这 个 空间 中 的 实例 会 令 1- 近 邻 算法 赋予 该 训练 样 例 所 属 的 分 


类 ) 。 


对 前 面 的 k- 近 邻 算 法 作 简单 的 修改 后 ， 它 就 可 被 用 于 逼近 连续 值 的 目标 辑 数 。 为 了 实现 这 一 
点 ， 我 们 让 算法 计算 k 个 最 接近 样 例 的 平均 值 ， 而 不 是 计算 其 中 的 最 普通 的 值 。 更 精确 地 讲 ， 
为 了 台 近 一 个 实 值 目标 函数 让 天" 玉江 ， 我 们 只 要 把 算法 中 的 公式 替换 为 : 


SY f(x,) 


Te Se 


距离 加 权 最 近邻 算法 
er 个 显而易见 的 改进 是 对 Kk 个 近 领 的 贡献 加 权 ， 根 据 它们 相对 查询 点 xg 的 距 
， 将 较 大 的 权 值 赋 给 较 近 的 近邻 。 


例如 ， 在 上 表 融 近 离 散 目 标 函 效 的 算法 中 ， 我 们 可 以 根据 每 个 近邻 与 Xo 的 距离 平方 的 倒数 加 
权 这 个 近邻 的 “选举 权 ” 


方法 是 通过 用 下 式 取 代 上 表 算 法 中 的 公式 来 实现 : 


F k 
vel ar 
其 中 
Wi = 


了 iw he 

a(x, Xs) 

为 了 处 理 查询 点 Xg 恰 好 匹配 某 个 训练 样 例 Xj， 从 而 导致 分 母 为 0 的 情况 ， 我 们 今 这 种 情况 下 的 / 
(Xg) 等 于 f(xj))。 如 果 有 多 个 这 样 的 训练 样 例 ， 我 们 使 用 它们 中 占 多 数 的 分 类 。 

我 们 也 可 以 用 类 似 的 方式 对 实 值 目标 图 数 进行 距离 加 权 ， 只 要 用 下 式 奉 换 上 表 的 公式 : 


、 ) 
F(x, ye Zams) 人 
ae 


W. 


r iT 一 | 1 


其 中 wj 的 定义 和 与 之 前 公式 中 相同 。 


注意 这 个 公式 中 的 分 母 是 一 个 常量 ， 它 将 不 同 权 值 的 贡献 为 一 化 (例如 ， 它 保证 如 果 对 所 有 
的 训练 样 例 Xj，f(xj)=c， 那 么 (xg)<--c) 。 


注 晶 以 上 k- 近 邻 算法 的 所 有 变 体 都 只 考虑 K 个 近邻 以 分 类 查询 氮 。 如 果 使 用 按 距 离 加 权 ， 那 么 
人 允许 所 有 的 训练 样 例 影响 xg 的 分 类 事实 上 没有 坏处 ， 因 为 非常 远 的 实例 对 (xg) 的 影响 很 小 。 考 
虑 所 有 样 例 的 惟一 不 足 是 会 使 分 类 运行 得 更 慢 。 如 果 分 类 一 个 新 的 查询 实例 时 考虑 所 有 的 训 
练 样 例 ， 我 们 称 此 为 全 局 (global) 法 。 如 果 人 考虑 最 靠近 的 训练 样 例 ， 我 们 称 此 为 局 部 
(local) 法 。 


四 、 对 kK- 近邻 算法 的 说 明 


按 距离 加 权 的 kK- 近邻 算法 是 一 种 非常 有 效 的 为 纳 推理 方法 。 它 对 训练 数据 中 的 噪声 有 很 好 的 和 鲁 
棒 性 ， 而 且 当 给 定 足 够 大 的 训练 集合 时 它 也 非 剃 有效。 注意 通过 取 k 个 近邻 的 加 权 平 均 ， 可 以 
消除 孤立 的 噪声 样 例 的 影响 。 


1、 问 题 一 : 近邻 间 的 距离 会 被 大 量 的 不 相关 属性 所 支配 。 


应 用 kK- 近 邻 算法 的 一 个 实践 问题 是 ， 实 例 间 的 距离 是 根据 实例 的 所 有 属性 〈 也 融 是 包含 实例 的 
欧 氏 空间 的 所 有 坐标 轴 ) 计算 的 。 这 和 与 那些 只 选择 全 部 实例 属性 的 一 个 子 集 的 方法 不 同 ， 例 
如 决策 树 学 习 和 系统。 


比如 这 样 一 个 问题 : 每 个 实例 由 20 个 属性 描述 ， 但 在 这 些 属性 中 仅 有 2 个 与 它 的 分 类 是 有 关 。 
在 这 种 情况 下 ， 这 两 个 相关 属性 的 值 一 致 的 实例 可 能 在 这 个 20 维 的 实例 空间 中 相距 很 远 。 结 
果 ， 依 赖 这 20 个 属性 的 相似 性 度量 会 误导 Kk- 近 邻 算法 的 分 类 。 近 和 邻 间 的 距离 会 被 大 量 的 不 相 
天 属性 所 文 配 。 这 种 由 于 存在 很 多 不 相关 属性 所 导致 的 难题 ， 有 时 被 称 为 维度 灾难 (curse of 
dimensionality) 。 最 近邻 方法 对 这 个 问题 特别 敏感 。 


2、 解 决 方法 : 当 计 算 两 个 实例 间 的 距离 时 对 每 个 属性 加 权 。 


这 相当 于 按 比 例 缩放 欧 氏 空间 中 的 坐标 轴 ， 缩 得 对 应 于 不 太 相 天 属性 的 坐标 轴 ， 拉 长 对 应 于 
更 相关 的 属性 的 坐标 轴 。 每 个 坐标 轴 应 伸展 的 数量 可 以 通过 交叉 验证 的 方法 上 自动 决定 。 

3、 问 题 二 : 应 用 k- 近 邻 算法 的 另外 一 个 实践 问题 是 如 何 建立 高 效 的 索引 。 因 为 这 个 算法 推迟 
所 有 的 处 理 ， 亩 到 接收 到 一 个 新 的 查询 ， 所 以 处 理 每 个 新 查询 可 能 需要 大 量 的 计算 。 


4、 解 决 方法 : 目前 已 经 开发 了 很 多 方法 用 来 对 存储 的 训练 样 例 进行 过 引 ， 以 便 在 增加 一 定 存 
储 开 销 情况 下 更 高 效 地 确定 最 近邻 。 一 种 索引 方法 是 kd-tree (Bentley 1975 ; Friedman et al. 


1977) ， 它 把 实例 存储 在 树 的 叶 结 点 内 ， 令 近 的 实例 存储 在 同一 个 或 附近 的 结 点 内 。 通 过 测 
试 新 查询 Xg 的 选 定 属性 ， 树 的 内 部 结 点 把 查询 xg 排列 到 相关 的 叶 结 点 。 


机 器 学 习 与 数据 挖掘 -K 最 近邻 (KNN) 算 法 的 实现 
(java 和 和 python 版 ) 


来 源 : http://blog.csdn.net/u011067360/article/details/45937327 


四 


KNN 算 法 基础 思想 前 面 文 章 可 以 参考 ， 这 里 主要 讲解 java 和 python 的 两 种 简单 实现 ， 也 主要 
是 理解 简单 的 思想 。 


C 


四 


Ç 


python 版 本 : 


这 里 实现 一 个 手写 识别 算法 ， 这 里 只 简单 识别 0~9 熟 悉 ， 在 上 篇 文章 中 也 展示 了 手写 识别 的 应 
用 ， 可 以 参考 : 机 器 学 习 和 与 数据 挖掘 -logistic 回 为 及 手写 识别 实例 的 实现 
输入 : 每 个 手 守 数字 已 经 事先 义理 成 32*32 的 二 进 制 文 本 ， 人 存储 为 txt 文 件 。0 一 9 每 个 数字 都 有 


10 个 训练 样本 ，5 个 测试 样本 。 训 练 样本 集 如 下 图 : 左边 是 文件 目录 ， 右 边 是 其 中 一 个 文件 打 
开 显 示 的 结果 ， 看 看 像 1， 这 里 有 0~9， 每 个 数字 都 有 是 个 样本 来 作为 训练 集 。 





4 (= KNN ak /GOG00000000009011111111111900009000 
4 @ use Python and NumPy 8 00000000000011111111111000000000 
G testDigits 9 00000000000011111111111000000000 
i 19 000000000011111111111110000000909 
2) 0 bd 11 00000000001111111111111000000000 
B 0.10.0 12 66666666611111111111111666666666| 
a 6 Aue 13 00000001111111111111111000000000 
B 0 3.04 14 00000001111111111111111000000009 
ne 15 00000011111111111111111000000000 
ea ees J 16 00000011111111111111111000000000 
i osm 17 00000011111110011111111000000009 
Da ei 18 00000011111100011111111000000000 
— 19 00000001110000011111111000000009 
=| 0 B-bt 20 00000000000000011111111100000009 
E 3bd 21 08800009000000011111111100000000 
=| tibt 22 000000000000000111111111100009000 
al Lot 23 8008000000000011111111119000000 
E| 1_2.txt 24 0000000000000090111111111909090090000 
B 1_3.t¢ 25 00000000000000011111111100000000 
E 1 4.txt 26 00000000000000011111111100000009 
B 1.5.bd 27 00000000000000111111111110000009 
E) 1.6-bt 28 00000000000000111111111110000000 
B 17t 29 000000000000000111111111100009009 
B 1.8.txt 30 00000000000000011111111100000009 
B 1.9.tet 31 00000000000000011111111100000000 
> 2 ibt 32 000000000000000000100000000009009 
B 2.10.txt 


第 一 步 : 将 每 个 txt 文 本 转化 为 一 个 向 量 ， 即 3232 的 数组 转化 为 11024 的 数组 ， 这 个 1*1024 的 
数组 用 机 器 学 习 的 术语 来 说 融 是 特征 同 量 。 


def img2vector(filename): 

returnVect = zeros((1, 1024) ) 
fr = open(filename) 
for 1 in range(32): 

lineStr = fr.readline() 

for ] in range(32): 

returnVect[0,32*1i+j] = int(lineStr[j]) 

return returnVect 


第 二 步 : 训练 样本 中 有 1070 个 图 片 ， 可 以 合并 成 一 个 1001024 的 矩阵 ， 每 一 行 对 应 一 -1 
F, thE ctxt. 


def handwritingClassTest(): 


hwLabels = [] 
trainingFileList = listdir('trainingDigits' ) 
print trainingFileList 
m = len(trainingFileList) 
trainingMat = zeros((m, 1024) ) 
for 1 in range(m): 
fileNameStr = trainingFileList[i] 
fileStr = fileNameStr.split('.')[0] 
ClassNumStr = int(fileStr.split('_')[0]) 
hwLabels.append(classNumStr ) 
#print hwLabels 
#print fileNameStr 
trainingMat[1,:] = img2vector('trainingDigits/%s' % fileNameStr ) 
#print trainingMat[i, : | 
#print len(trainingMat[i, :]) 


testFileList = listdir('testDigits' ) 

errorCount = 0.0 

mTest = len(testFileList ) 

for 1 in range(mTest): 
fileNameStr = testFileList[i] 
fileStr = fileNameStr.split('.')[0] 
ClassNumStr = int(fileStr.split('_')[0]) 
vectorUnderTest = img2vector('testDigits/%s' % fileNameStr ) 
ClassifierResult = classifyO(vectorUnderTest, trainingMat, hwLabels, 3) 
print "the classifier came back with: %d, the real answer is: %d" % (classifierRe 
if (classifierResult != classNumStr): errorCount += 1.0 

print "\nthe total number of errors is: %d" % errorCount 

print "\nthe total error rate is: %f" % (errorCount/float(mTest ) ) 


S 


第 三 步 : 测试 样本 中 有 105 个 图 片 ， 同 样 的 ， 对 于 测试 图 片 ， 将 其 转化 为 11024 的 向 量 ， 然 后 
计算 它 和 与 训练 样本 中 各 个 图 片 的 “距离 ”( 这 里 两 个 向 量 的 距离 采用 欧式 距离 ) ， 然 后 对 距离 排 
序 ， 选 出 较 小 的 前 k 个 ， 因 为 这 k 个 样本 来 自 训 练 集 ， 是 已 知 其 代表 的 数字 的 ， 所 以 被 测试 图 
片 所 代表 的 数字 就 可 以 确定 为 这 k 个 中 出 现 次 数 最 多 的 那个 数字 。 





def classify0(inX, dataSet, labels, k): 

dataSetSize = dataSet.shape[0] 

#tile(A, (m,n) ) 

print dataSet 

print "---------------- J 

print tile(inX, (dataSetSize,1)) 

print "---------------- i 

diffMat = tile(inX, (dataSetSize,1)) - dataSet 

print diffMat 

sqDiffMat = diffMat**2 

sqDistances = sqDiffMat.sum(axis=1) 

distances = sqDistances**0.5 

sortedDistIndicies = distances.argsort() 

classCount={} 

for 1 in range(k): 
voteIlabel = labels[sortedDistIndicies[1i] ] 
classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1 

sortedClassCount = sorted(classCount.iteritems(), key=operator.itemgetter(1), reverse 

return sortedClassCount[0][0] 


到 


全 部 实现 代码 : 





#-*-coding:utf-8-*- 
from numpy import * 
import operator 

from os import listdir 


def classifyO(inX, dataSet, labels, k): 

dataSetSize = dataSet.shape[0] 

#tile(A, (m,n) ) 

print dataSet 

print "---------------- á 

print tile(inX, (dataSetSize,1)) 

print "---------------- j 

diffMat = tile(inX, (dataSetSize,1)) - dataSet 

print diffMat 

sqDiffMat = diffMat**2 

sqDistances = sqDiffMat.sum(axis=1) 

distances = sqDistances**0.5 

sortedDistIndicies = distances.argsort() 

classCount={} 

for 1 in range(k): 
voteIlabel = labels[sortedDistIndicies[1i] ] 
classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1 

sortedClassCount = sorted(classCount.iteritems(), key=operator.itemgetter(1), reverse 

return sortedClassCount[0][0] 


def img2vector(filename): 

returnVect = zeros((1,1024) ) 
fr = open(filename) 
for 1 in range(32): 

lineStr = fr.readline() 

for ] in range(32): 

returnVect[0,32*1i+j] = int(lineStr[j]) 

return returnVect 


def handwritingClassTest(): 


hwLabels = [] 
trainingFileList = listdir('trainingDigits' ) 
print trainingFileList 
m = len(trainingFileList ) 
trainingMat = zeros((m, 1024) ) 
for 1 in range(m): 
fileNameStr = trainingFileList[i] 
fileStr = fileNameStr.split('.')[0] 
ClassNumStr = int(fileStr.split('_')[0]) 
hwLabels.append(classNumStr ) 
#print hwLabels 
#print fileNameStr 
trainingMat[1,:] = img2vector('trainingDigits/%s' % fileNameStr ) 
#print trainingMat[i, : ] 
#print len(trainingMat[i,:]) 


testFileList = listdir('testDigits' ) 

errorCount = 0.0 

mTest = len(testFileList ) 

for 1 in range(mTest): 
fileNameStr = testFileList[i] 
fileStr = fileNameStr.split('.')[0] 
CclassNumStr = int(fileStr.split('_')[0]) 
vectorUnderTest = img2vector('testDigits/%s' % fileNameStr ) 
ClassifierResult = classifyO(vectorUnderTest, trainingMat, hwLabels, 3) 
print "the classifier came back with: %d, the real answer is: %d" % (classifierRe 
if (classifierResult != classNumStr): errorCount += 1.0 

print "\nthe total number of errors is: %d" % errorCount 

print "\nthe total error rate is: %f" % (errorCount/float(mTest ) ) 


handwritingClassTest() 


4 

















运行 结果 : 源码 文章 尾 可 下 载 





4 (= KNN a 1g9ogogogogogogogogggogg1111111111100000009 
4 @ use Python and NumPy 8 669696666666611111111111666666666 
> @& testDigits 966666666666611111111111666666666 
4 & trainingDigits 10 00000000001111111111111000000000 
B 01t 11 00000000001111111111111000000009 
0 10.txt 12 09@090000111111111111118e80e80000| 
B oasa 13 00000001111111111111111000000000 
B 0 30 x 1466666661111111111111111666666666 
Bowe 15 00000011111111111111111000000000 
ee | 16 00000011111111111111111000000000 
i osm = 17 66666611111116611111111666666666 
sd ee | 18 00000011111100011111111000000000 
EO a 19 66666661116666611111111666666666 
目 0_8.txt 20 00000000000000011111111100000000 
国 0_9.tet 21 889000090000000111111111000900000 
B iiit 22 00000000000000011111111110000009 
1_10.txt 23 000000000000000111111111100900009 
E 1_2.bxt 24 00000000000000011111111100000000 
B 13.bt 25 000000000000000111111111090000000 
B 1.4.bxt 26 00000000000000011111111100000000 
B 1.5.b¢ 27 00000000000000111111111110000000 
国 1L6.tt 28 000000000000001111111111190000000 
B 17t 29 00000000000000011111111110000000 
B 1.8.txt 30 000000000000000111111111000009000 
ay ee 31 66666666666666611111111166666666 
A 

B 2ite 32 000000000000000000100000000090000 

2_10.txt M- 


java 版 本 
乞 看 看 训练 集 和 测试 案 : 
训练 集 : 


[B datafile.data 22 


12.6 174 I.2 2.1 0.3 2.3 2.4 825 i 
21-7 1-2 1-4 2.0 0.2 2.5 1-2 0.8 1 
事业 二 
41.9 221 6.2.7 241 6.9 3.3 2.4 5.45 6 
44-20 0.5 1-6 2:1 0-2 2.3 1:6 0-5 1 
61.6 2.1 5.4 I1 0a 5.6 2.44.5 6 


测试 集 : 


KNN 


一 


~y 


[=| datafiledata £3 [E] testfile.data 
11.8 1-1 T 8. 
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训练 集 最 后 一 列 代表 分 类 (0 或 者 1) 
代码 实现 : 


KNN 算 法 主体 类 : 


package Marchinglearning.knn2; 


import java.util.ArrayList; 
import java.util.Comparator; 
import java.util.HashMap; 
import java.util.List; 

import java.util.Map; 

import java.util.PriorityQueue; 


JE R 
* KNN 算 法 主体 类 
7 
public class KNN { 
J RE 
* 设置 优先 级 队列 的 比较 函数 ， 距 离 越 大 ， 优 先 级 越 高 
1 
private Comparator<KNNNode> comparator = new Comparator<KNNNode>() { 
public int compare(KNNNode o1, KNNNode o2) { 
if (01.getDistance() >= o2.getDistance()) { 


return 1; 
} else { 
return 0; 
} 
} 
ti 
Tas 


* 获取 K 个 不 同 的 随机 数 

* @param k 随机 数 的 个 数 

* @param max 随机 数 最 大 的 范围 
* @return 生成 的 随机 数 数组 
A 


public List<Integer> getRandKNum(int k, int max) { 
List<Integer> rand = new ArrayList<Integer>(k); 


for (int 1 = 0; i < k; i++) f{ 
int temp = (int) (Math.random() * max); 
if (!rand.contains(temp)) { 
rand.add(temp) ; 


} else { 
1--; 
} 
} 
return rand; 
} 
Eee 


* 计算 测试 元 组 与 训练 元 组 之 前 的 距离 

* @param d1 测试 元 组 

* @param d2 训练 元 组 

* @return 距离 值 

7, 

public double calDistance(List<Double> di, List<Double> d2) { 
System.out.printin("d1i:"+d1+",d2"+d2); 
double distance = 0.00; 
for (int 1 = 0; 1 < di1.size(); i++) {í 
distance += (di.get(i) - d2.get(i)) * (di.get(i) - d2.get(i)); 

} 


return distance; 
} 
JEE 
* 执行 KNN 算 法 ， 获 取 测 试 元 组 的 类 别 
* @param datas 训练 数据 集 
* @param testData 测试 元 组 
* @param k 设 定 的 K 值 
* @return 测试 元 组 的 类 别 
a 
public String knn(List<List<Double>> datas, List<Double> testData, int k) { 
PriorityQueue<KNNNode> pq = new PriorityQueue<KNNNode>(k, comparator); 
List<Integer> randNum = getRandKNum(k, datas.size()); 
System.out.println("randNum:"+randNum.toString()); 
for (int i = 0; i < k; i++) { 
int index = randNum.get(i); 
List<Double> currData = datas.get(index); 
String c = currData.get(currData.size() - 1).toString(); 
System.out.printin("currData:"+currDatat",c:"+c+", testData"+testData) ; 
// 计 算 测 试 元 组 与 训练 元 组 之 前 的 距离 
KNNNode node = new KNNNode(index, calDistance(testData, currData), c); 
pq.add(node); 


for (int i = 0; 1 < datas.size(); i++) { 
List<Double> t = datas.get(1); 
System.out.printin("testData:"+testData) ; 
System.out.printin("t:"+t); 
double distance = calDistance(testData, t); 
System.out.printin("distance:"+distance) ; 
KNNNode top = pq.peek(); 
if (top.getDistance() > distance) { 
pq.remove(); 
pq.add(new KNNNode(i, distance, t.get(t.size() - 1).toString())); 


} 


return getMostClass(pq); 
} 
J R 
* 获取 所 得 到 的 k 个 最 近邻 元 组 的 多 数 类 
* @param pq 存储 k 个 最 近 近 令 元 组 的 优先 级 队列 
* @return 多 数 类 的 名 称 
A 
private String getMostClass(PriorityQueue<KNNNode> pq) { 
Map<String, Integer> classCount = new HashMap<String, Integer>(); 
for (int i = 0; i < pq.size(); i++) { 
KNNNode node = pq.remove(); 
String c = node.getC(); 
if (classCount.containsKey(c)) { 
classCount.put(c, classCount.get(c) + 1); 
} else { 


classCount.put(c, 1); 


} 


int maxIndex = -1; 
int maxCount = 0; 
Object[ ] classes = classCount.keySet().toArray(); 
for (int 1 = 0; i < classes.length; i++) { 
if (classCount.get(classes[i]) > maxCount) { 
maxIndex = 1; 
maxCount = classCount.get(classes[i]); 
$ 
} 


return classes[maxIndex].toString(); 


KNN 结 点 类 ， 用 来 存储 最 近邻 的 k 个 元 组 相关 的 信息 


package Marchinglearning.knn2; 


J RE 
* KNN 结 点 类 ， 用 来 存储 最 近邻 的 Kk 个 元 组 相关 的 信息 
2 


public class KNNNode { 

private int index; // 元 组 标号 

private double distance; // 与 测试 元 组 的 距离 

private String c; // 所 属 类 别 

public KNNNode(int index, double distance, String c) { 
super(); 
this.index = index; 
this.distance = distance; 
this.c = ¢} 


} 


public int getIndex() { 
return index; 


public void setIndex(int index) { 
this.index = index; 


} 
public double getDistance() { 
return distance; 


public void setDistance(double distance) { 
this.distance = distance; 


} 
public String getC() { 
return C; 


} 

public void setC(String c) { 
this.c = c¢} 

} 


KNN 算 法 测试 类 


package Marchinglearning.knn2; 
import java.io.BufferedReader ; 
import java.io.File; 

import java.io.FileReader ; 
import java.util.ArrayList; 
import java.util.List; 


Prt 
* KNN 算 法 测试 类 
* / 


public class TestKNN { 


Tos 

* 从 数据 文件 中 读 取 数据 

* @param datas 存储 数据 的 集合 对 象 
* @param path 数据 文件 的 路 径 

“7 


public void read(List<List<Double>> datas, String path){ 
try 4 
BufferedReader br = new BufferedReader (new FileReader(new File(path))); 
String data = br.readLine(); 
List<Double> 1 = null; 
while (data != null) { 
String t[] = data.split(" "); 
l = new ArrayList<Double>(); 
for (int i = 0; i < t.length; i++) { 
1.add(Double.parseDouble(t[1i]))/; 


} 
datas.add( 1l); 
data = br.readLine(); 


} 
} catch (Exception e) { 
e.printStackTrace(); 
i 


} 


JER 
* 程序 执行 人 口 
* @param args 
eT 
public static void main(String[] args) { 
TestKNN t = new TestKNN(); 
String datafile = new File("").getAbsolutePath() + File.separator +"knndata2"+Fil 
String testfile = new File("").getAbsolutePath() + File.separator +"knndata2"+Fil 
System.out.printin("datafile:"+datafile) ; 
System.out.printin("testfile:"+testfile) ; 
try { 
List<List<Double>> datas = new ArrayList<List<Double>>()/; 
List<List<Double>> testDatas = new ArrayList<List<Double>>(); 
t.read(datas, datafile); 
t.read(testDatas, testfile); 
KNN knn = new KNN(); 
for (int i = 0; i < testDatas.size(); i++) { 
List<Double> test = testDatas.get(1); 
System,out.print(" 测 斌 元 组 : "); 
for (int j = 0; j < test.size(); j++) { 
System.out.print(test.get(j) + " "); 
i 


System.out.print("##|A: "); 
System.out.printiln(Math.round(Float.parseFloat((knn.knn(datas, test, 3))) 


} 
} catch (Exception e) { 
e.printStackTrace(); 





datafile: 
testfile: 
mitg : 


1 


测试 元 组 : 


1 


测试 元 组 : 


1 


出 二 元 组 : 


各 


Miss cz8 : 


1 


测试 元 组 : 


和 


资源 下 载 : 
python 版 本 下 载 


L: 


F: 
F: 
5] 


2 


\androidproj\testjava\knndata2\datatile.data 
ndroidproj\testjava\knndata2\testfile.data 


\a 
T 


1 1.2 2.1 ð.3 2.3 1.4 0.5 #9: 
2 
-8 
.1 
-6 


-al 


java 版 本 下 载 


1 


I: 


iL 


5. 


-4 


2 


2 


-0 0.2 2. 


see Ai 


和 


-1.0.2 2. 


-1 6-6 3. 


5 


2 


3 


3 


6 


1.7 0.8 


1.8 6.2 


2.4 5.5 


1.6 6.5 


2.4 4.5 


其 别 为 : 


Zell”: 


Hala : 


荣 别 为 : 


Zeal A): 


randNum: 


randNum: 


randNum: 


randNum: 


randNum: 


randNum: 


[1， 
[3， 
[3， 
[2， 
[8, 


[1, 


5] 
4] 
9] 
1] 
1]| 


4] 


Rhea WOT HTS X as 


来 源 : http://blog.csdn.net/u011067360/article/details/22890465 
贝 叶 斯 定理 


贝 叶 斯 定理 解决 了 现实 生活 里 经 营 遇 到 的 问题 : 已 知 某 条 件 概率 ， 如 何 得 到 两 个 事件 交换 后 
的 概率 ， 也 融 是 在 已 知 P(AIB) 的 情况 下 如 何 求 得 P(BIA)。 这 里 先 解 释 什 么 是 条 件 概率 : 


PB) 表示 事件 B 已 经 发 生 的 前 提 下 ， 事 件 A 发 生 的 概率 ， 叫 做 事件 B 发 生 下 事件 A 的 条 件 概 
P(AIB) = nt esa 
率 。 其 基本 求解 公式 为 : PIB) 。 
贝 叶 斯 定理 之 所 以 有 用 ， 是 因为 我 们 在 生活 中 经 常 遇 到 这 种 情况 : 我 们 可 以 很 容易 直接 得 出 
PLAIB)，PI(BIA) 则 很 难 直接 得 出 ， 但 我 们 更 关心 P(BIA)， 贝 叶 斯 定理 就 为 我 们 打通 从 P(AIB) 获 
得 P(BIA) 的 道路 。 





下 面 不 加 证 明 地 直接 给 出 贝 叶 斯 定理 : 
P(.A|B)P(B) 
P(A) 


朴素 贝 叶 斯 分 类 的 原理 与 流程 


朴素 贝 叶 斯 分 类 是 一 种 十 分 简单 的 分 类 算法 ， 叫 它 朴 素 贝 叶 斯 分 类 是 因为 这 种 方法 的 思想 真 
的 很 朴素 。 


朴素 贝 叶 斯 的 思想 基础 是 这 样 的 : 对 于 给 出 的 竺 分 类 项 ， 求 解 在 此 项 出 现 的 条 件 下 各 个 类 别 
出 现 的 概率 ， 哪 个 最 大 ， 融 认为 此 竺 分 类 项 属于 哪个 类 别 。 


通俗 来 说 ， 融 好 比 这 么 个 道理 ， 你 在 街 上 看 到 一 个 黑人 ， 我 问 你 你 猜 这 哥们 哪里 来 的 ， 你 十 
有 八 九 猜 非洲 。 为 什么 呢 ? 因为 黑人 中 非洲 人 的 比率 最 高 ， 当 然 人 家 也 可 能 是 美洲 人 或 亚洲 
人 ， 但 在 没有 其 它 可 用 信息 下 ， 我 们 会 选择 条 件 概 率 最 大 的 类 别 ， 这 束 是 朴 磁 贝 叶 斯 的 思想 
基础 。 


朴素 贝 叶 斯 分 类 器 应 用 的 学 习 任 务 中 ， 每 个 实例 x 可 由 属性 值 的 合 取 搓 述 ， 而 目标 范 数 x) 从 
某 有 限 集合 V 中 取 值 。 学 习 器 被 提供 一 系列 关于 目标 图 数 的 训练 样 例 ， 以 及 新 实例 (描述 为 属 
性 值 的 元 组 ) <a1,a2...an>， 然 后 要 求 预测 新 实例 的 目标 值 (或 分 类 ) 。 


Pi B|A} = 


贝 叶 斯 方法 的 新 实例 分 类 目标 是 在 给 定 摘 述 实例 的 属性 值 <a1,a2...ap> 下 ， 得 到 最 可 能 的 目标 
值 VMAP。 


We =a arg max P, | ch . ad, m a, ) 


ver 
可 使 用 贝 叶 斯 公式 料 此 表达 式 重 写 为 
Pa 508,48. | V j JP) 


Vyp = arg max ————————— = arg max P(d,,q)...a, | V; JPC, ) 
ver P (a 1 > a Jee tl H ) i EF r 


(1) 


现在 要 做 的 是 基于 训练 数据 估计 (1) 陈 中 两 个 数据 项 的 值 。 估计 每 个 P(V) 很 容易 ， 只 要 计算 
每 个 目标 值 V 出 现在 训练 数据 中 的 频率 融 可 以 。 


然而 ， 除 非 有 一 非常 大 的 训练 数据 的 集合 ， 否 则 用 这 样 方法 估计 不 同 的 P(a1,a2.. .anlW) 项 不 太 
可 行 。 


问题 在 于 这 些 项 的 数量 等 于 可 能 实例 的 数量 乘 以 可 能 目标 值 的 数量 。 因 此 为 获得 合理 的 估 
计 ， 实 例 空 间 中 每 个 实例 必须 出 现 多 次 。 


朴素 贝 叶 斯 分 类 器 基于 一 个 简单 的 假定 : 在 给 定 目标 值 时 属性 值 之 间 相 互 条 件 独立 。 
换言之 ， 该 假定 说 明 给 定 实 例 的 目标 值 情 况 下 ， 观 察 到 联合 的 a1,a2...ap 的 概率 正好 是 对 每 个 
单独 属性 的 概率 乘积 : 


PÈ, da bhy | v, ) = II. P(a, | F, ) 


将 其 代入 〈1) 式 中 ， 可 得 到 朴素 贝 叶 斯 分 类 器 所 使 用 的 方法 : 
朴素 贝 叶 斯 分 类 器 : 


Vag — arg max P (v ; )| | P (a, | V, ) 
ver l | | i 


其 中 vNB 表 示 朴 乘 贝 叶 斯 分 类 器 输出 的 目标 值 。 


注意 在 朴素 贝 叶 斯 分 类 器 中 ， 须 从 训练 数据 中 估计 的 不 同 Plailwj) 项 的 数量 只 是 不 同 的 属性 值 
数量 乘 以 不 同 目标 值 数量 一 这 比 要 估计 P(a1,a2.….anlvj) 项 所 需 的 量 小 得 多 。 


概括 地 讲 ， 朴 素 贝 叶 斯 学 习 方法 需要 估计 不 同 的 P(wj) 和 Ptailw) 项 ， 基 于 它们 在 训练 数据 上 的 
频率 。 这 些 估计 对 应 了 待 学 习 的 假设 。 然 后 该 假设 使 用 上 面 式 中 的 规则 来 分 类 新 实例 。 只 要 
所 需 的 条 件 独立 性 能 够 被 满足 ， 朴 素 贝 叶 斯 分 类 vVNB 等 于 MAP 分 类 。 


朴素 贝 叶 斯 学 习 方法 和 其 他 已 介绍 的 学 习 方 法 之 间 有 一 有 趣 的 差别 : 没有 明确 的 搜索 假设 空 
间 的 过 程 (这 里 ， 可 能 假设 的 空间 为 可 被 赋予 不 同 的 P(w) 和 P(alv) 项 的 可 能 值 。 相 反 ， 假 设 
的 形成 不 需要 搜索 ， 只 是 简单 地 计算 训练 样 例 中 不 同 数据 组 合 的 出 现 频率 ) 。 


朴素 贝 叶 斯 分 类 的 正 陈 定义 如 下 : 

1、 设 了 二 {1,02,.… Qim 上 为 一 个 待 分 类 项 ， 而 每 个 a 为 x 的 一 个 特征 属性 。 
2、 有 类 别 集合 = {V1, Y2; -3 Yn h 
aiao 

4. gP lye) = mar{ Piye), Piyaz). 加 上 mr E Yk, 
ABZ mRNK mE R BIARRA RARE, RTA Ae : 
1、 找 到 一 个 已 知 分 类 的 竺 分 类 项 集合 ， 这 个 集合 叫做 训练 样本 集 。 


2、 统 计 得 到 在 各 类 别 下 各 个 特征 属性 的 条 件 概率 估计 。 即 
Pia lyi), Plasy), ..., Plam lyr): Plar|y2), Plas |te), ..., Plam|ye): ...; Play lin), Plag|yn),.., Plam Yn) 


3、 如 果 各 个 特征 属性 是 条 件 独 立 的 ， 则 根据 贝 叶 斯 定理 有 如 下 推导 : 
Pisin} Pig) 
P(r) 


因为 分 母 对 于 所 有 类 别 为 常数 ， 因 为 我 们 只 要 将 分 子 最 大 化 此 可 。 又 因为 各 特征 属性 是 条 件 
独立 的 ， 所 以 有 : 


Plyilz) = 


m 
Pizlyi)P yi) = Pia lyi) Plasy) Plan |y) Ply) = Ply) | | Plajly) 
j=l 


朴素 贝 叶 斯 分 类 实例 : RRRA EA AtA RK 


Æ 
5 


Day Outlook Temperature Humidity Wind PlayTennis 
D1 Sunny Hot High Weak No 
D2 Sunny Hot High Strong No 
D3 Overcast Hot High Weak Yes 
D4 Rain Mild High Weak Yes 
D5 Rain Cool Normal Weak Yes 
D6 Rain Cool Normal Strong No 
D7 Overcast Cool Normal Strong Yes 
D8 Sunny Mild High Weak No 
D9 Sunny Cool Normal Weak Yes 
D10 Rain Mild Normal Weak Yes 
D11 Sunny Mild Normal Strong Yes 
D12 Overcast Mild High Strong Yes 
D13 Overcast Hot Normal Weak Yes 
D14 Rain Mild High Strong No 


1X PREA RARE OR N HED K aeRO K FIA K A : 


Outlook=sunny, Temperature=cool, Humidity=high,Wind=strong 


我 们 的 任务 是 对 此 新 实例 预测 目标 概念 PlayTennis 的 目标 值 (yes $no) 。 将 上 面 式 子 应 用 
到 当前 的 任务 ， 目 标 值 VNB 由 下 陈 给 出 : 


Vag =argmax P (v,)] Le (a; |v) 


VE] yer no} 


= arg max PCy, )P(Outlook = sunny | v; \P(Temperature = cool | v) 


v;E{ yes no} 


P( Humidity = high by  )}P(Wind ='strong |v ;) D 


注意 在 最 后 一 个 表达 式 中 aj 已 经 用 新 实例 的 特定 属性 值 实例 化 了 。 为 计算 vyNB， 现 在 需要 10 个 
概率 ， 它 们 都 可 以 训练 数据 中 估计 出 。 


目 先 不 同 目标 值 的 概率 可 以 基于 这 14 个 训练 样 例 的 频率 很 容易 地 估计 出 : 


P(PlayTennis=yes )=9/14=0.64 
P(PlayTennis=no )=5/14=0. 36 


相似 地 ， 可 以 估计 出 条 件 概 率 ， 例 如 对 于 Wind=Strong 有 : 


P(Wind=strong|PlayTennis=yes )=3/9=0. 33 
P(Wind=strong|PlayTennis=no )=3/5=0.60 


使 用 这 些 概率 估计 以 及 相似 的 对 剩余 属性 的 估计 ， 可 按照 式 〈2) 计算 VNB 如 下 (为 简明 起 见 
忽略 了 属性 名 ) 。 


P(yes)P(sunny|yes)P(cool|yes)P(high|yes)P(strong|yes)=0.0053 
P(no)P(sunny|no)P(cool|no)P(high|no)P(strong|no)=0.0206 


这 样 ， 基 于 从 训练 数据 中 学 习 到 的 概率 估计 ， 朴 素 贝 叶 斯 分 类 器 将 此 实例 赋 以 目标 
46 Play Tennis=no 。 


Ai, ur gE o, SHREE THA Ano 的 条 件 概 率 。 对 于 此 
例 ， 概率 为 0.0206/(0.0206+0.0053)=0.795。 


从 数学 角度 来 说 ， 分 类 问题 可 做 如 下 定义 : 
已 知 集合 : C S {Yt Ya Inbal = {Th T2 Tm], RMI = 7)， 使 得 任 
意 Ti E 7 有 且 人 色 有 一 个 娘 E CEY = (COR, (不 考虑 模糊 数学 里 的 模糊 集 情况 ) 

其 中 C 叫 做 类 别 集合 ， 其 中 每 一 个 元 素 是 一 个 类 别 ， 而 | 叫做 项 集合 ， 其 中 每 一 个 元 素 是 一 个 
待 分 类 项 ， 人 做 分 类 器 。 分 类 算法 的 任务 就 是 构造 分 类 器 


这 里 要 着 重 强调 ， 分 类 问题 往往 采用 经 验 性 方法 构造 映射 规则 ， 即 一 般 情况 下 的 分 类 问题 缺 
少 足 够 的 信息 来 构造 100% 正 确 的 映射 规则 ， 而 是 通过 对 经 验 数 据 的 学 习 从 而 实现 一 定 概率 意 
义 上 正确 的 分 类 ， 因 此 所 训练 出 的 分 类 器 并 不 是 一 定 能 将 每 个 竺 分 类 项 准确 映射 到 其 分 类 ， 
分 类 器 的 质量 和 与 分 类 器 构造 方法 、 答 分 类 数据 的 特性 以 及 训练 样本 数量 寺 诸 多 因素 有 天 。 


数据 挖掘 十 大 经 典 算法 --CART: 分 类 与 回归 树 


来 源 : http://blog.csdn.net/u011067360/article/details/24871801 
一 、 决 策 树 的 类 型 在 数据 挖掘 中 ， 决 策 树 主要 有 两 种 类 型 ; 


分 类 树 的 输出 是 样本 的 类 标 。 Elyse 的 输出 是 一 个 实数 (例如 房子 的 价格 ， 病 人 呆 在 医院 的 
时 间 等 )。 


术语 分 类 和 回归 树 (CART) BSS OM BAAR, 最 先 由 Breiman 等 提出 .分 类 树 和 回 轨 树 有 
些 共同 点 和 不 同 点 一 例如 处 理 在 何 处 分 名 的 问题 。 


4} # [Hl Ja #t(CART,Classification And Regression Tree) 也 属于 一 种 决策 树 ， 之 前 我 们 介绍 了 
基于 ID3 和 C4.5 算 法 的 决策 树 。 这 里 只 介绍 CART 是 怎样 用 于 分 类 的 。 


分 类 回归 树 是 一 棵 二 又 树 ， 且 每 个 非 叶子 节点 都 有 两 个 孩子 ， 所 以 对 于 第 一 棵 子 树 其 叶子 节 
点 数 比 非 叶子 节点 数 多 1。 


CART 和 与 ID3 区 别 : CART 中 用 于 选择 变量 的 不 纯 性 度量 是 Gini 指 数 ; 如 果 目 标 变量 是 标 称 
的 ， 并 且 是 具有 两 个 以 上 的 类 别 ， 则 CART 可 能 考虑 将 目标 类 别 合 并 成 两 个 超 类 别 〈 双 化 ) 
如 果 目 标 变量 是 连续 的 ， 则 CART 算 法 找 出 一 组 基于 树 的 回 轨 方程 来 预测 目标 变量 。 


二 、 构 建 决策 树 


构建 决策 树 时 通常 采用 自 上 而 下 的 方法 ， 在 每 一 步 选 择 一 个 最 好 的 属性 来 分 裂 。 "最 好 " 的 定 
义 是 使 得 子 节点 中 的 训练 集 尽 量 的 纯 。 不 同 的 算法 使 用 不 同 的 指标 来 定义 "最 好 "。 本 部 分 介绍 
一 中 最 常见 的 指标 。 


有 4 中 不 同 的 不 纯度 量 可 以 用 来 发 现 CART 模 型 的 划分 ， 取 决 于 目标 变量 的 类 型 ， 对 于 分 类 的 
目标 变量 ， 可 以 选择 GINI， 双 化 或 有 序 双 化 ; 对 于 连续 的 目标 变量 ， 可 以 使 用 最 小 二 乘 偏 差 
(LSD) 或 最 小 绝对 偏差 (LAD) 。 


下 面 我 们 只 讲 GINI 指 数 。 GINI 指 数 : 1、 是 一 种 不 等 性 度量 ; 2、 通 常用 来 度量 收入 不 平 
衡 ， 可 以 用 来 度量 任何 不 均匀 分 布 ; 3、 是 介 于 0~1 之 间 的 数 ，0- 完 全 相等 ，1- 完 全 不 相等 ; 
4、 总 体内 包含 的 类 别 越 杂 乱 ，GINI 指 数 就 越 大 GRABS RL) 

CART 分 析 步 又 


1、 从 根 节 扣 t 二 1 开始 ， 从 所 有 可 能 候选 S 集 合 中 搜索 使 不 纯 性 降低 最 大 的 划分 S， 然 后 ， 使 用 
划分 S 将 节点 1 (t=1) 划分 成 两 个 节点 t=2 和 t=3 ; 2、 在 t=2 和 t=3 上 分 别 重复 划分 搜索 过 程 。 


基尼 不 纯度 指标 在 CART 算 法 中 , 基尼 不 纯度 表示 一 个 随机 选中 的 样本 在 子 集中 被 分 错 的 可 能 
性 。 基 尼 不 纯度 为 这 个 样本 被 选中 的 概率 乘 以 它 被 分 错 的 概率 。 当 一 个 节点 中 所 有 样本 都 是 
一 个 类 时 ， 基 尼 不 纯度 为 需 。 


假设 y 的 可 能 取 值 为 {1, 2, ..., m}, 倒 fi 是 样本 被 赋予 的 概率 ， 则 基尼 指数 可 以 通过 如 下 计算 : 


Ti 


Talf) T SAU = fi) = (fi = fi) = sy 一 MA 三 并 一 ahs 
i=1 it i=} i=1 


el | 


例如 : 

名 称 fim MES fet Fe ft KE Bh ”冬眠 类 标记 
A fin BE 是 百 a E5 是 a 哺乳 其 
E t Sim BA E5 E e5 百 a rE Meise 
Et E Sim BA a 是 e5 E 百 百 Hs 
E Em BE 是 E5 百 是 c5 百 IHF 
h 冷血 A c5 是 e5 有 时 = 是 Am 
E Hi Sim BA a 是 ra a 是 a [EiT 
RET Em EE 是 a E c5 十 e5 |, 28 
JE Em E E c5 e5 c5 是 e5 paea 
se CFM HA 是 a a = E5 E5 Hs 
ae Sm BA E5 E 百 有 时 = a Meise 
mia Em M$ E Ss a 百 是 是 哺乳 闪 
ae mM | BA a 是 c5 是 a a epee 
hi dy 冷血 A 四 T A All 是 是 Pass 


上 例 是 属性 有 8 个 ， 每 个 属性 又 有 多 少 离散 的 值 可 取 。 在 决策 树 的 每 一 个 节点 上 我 们 可 以 按 任 
一 个 属性 的 任 一 个 值 进行 划分 。 上 比如 最 开始 我 们 按 : 


1) RMBmA CRAMER 

2) AA im A HA AMIE A 

3) 体温 为 恒温 和 非 恒 温 

竺 等 产生 当前 节 扎 的 左右 两 个 孩子 。 下 面 我 们 按 GINI 指 数 划 分 有 : 


GINI 指 数 


总 体内 包含 的 类 别 越 订 乱 ，GINI 指 数 融 越 大 RAII SRA) 。 上 比如 体温 为 恒温 时 包含 


哺乳 类 5 个 、 乌 类 2 个 ， 则 : 
J 2 

GINI=1- K3) +{5 

A iA FEB m DMT RIN, 23. BMRI4, MI 


GINI=1- Gy + { 


所 以 如 果 按 照 “ 体 温 为 恒温 和 非 恒温 "进行 划分 的 话 ， 我 们 得 到 GINI 的 增益 (类比 信 息 增 益 ) 


l i 20 42 
GINI Gain = J5 * 19 + J5 * 64 
最 好 的 划分 就 是 使 得 GINI Gain 最 小 的 划分 。 
终止 条 件 


一 个 节点 产生 左右 孩子 后 ， 递 为 地 对 左右 孩子 进行 划分 即 可 产生 分 类 回 为 树 。 这 里 的 终止 条 

件 是 什么 ?什么 时 候 节 点 就 可 以 集 止 分 黎 了 ?直观 的 情况 ， 当 节点 包含 的 数据 记录 都 属于 同 

一 个 类 别 时 束 可 以 终止 分 歼 了 。 这 只 是 一 个 特例 ， 更 一 般 的 情况 我 们 计算 x2 值 来 判断 分 类 条 

件 和 类 别 的 相关 程度 ， 当 x2 很 小 时 说 明 分 类 条 件 和 类 别 是 独立 的 ， 即 按照 该 分 类 条 件 进 行 分 

类 是 没有 道理 的 ， 此 时 节 和 点 停止 分 裂 。 注 意 这 里 的 “分 类 条 件 " 是 指 按 照 GINI_Gain 最 小 原则 得 
到 的 “分 类 条 件 ”。 


假如 在 构造 分 类 回 为 树 的 第 一 步 我 们 得 到 的 “分 类 条 件 " 是 : 体温 为 恒温 和 非 恒温 。 此 时 : 


哺乳 类 METE 鱼 类 es 两栖 类 
(E om 5 0 0 2 
非 恒 温 0 3 3 | 0 = 
=, BK 


决策 树 为 什么 (WHY) 要 剪 枝 ? 原因 是 避免 决策 树 过 拟 合 (Overfitting) 样 本 。 前 面 的 算法 生成 的 
决策 树 非常 详细 并 且 上 庞大 ， 每 个 属性 都 被 详细 地 加 以 考虑 ， 决 策 树 的 树叶 节点 所 覆盖 的 训练 
样本 都 是 “ 纯 " 的 。 因 此 用 这 个 决策 树 来 对 训练 样本 进行 分 类 的 话 ， 你 会 发 现 对 于 训练 样本 而 
下， 这 个 树 表 现 完 好 ， 误 牌 率 极 低 且 能 够 正确 得 对 训练 样本 集中 的 样本 进行 分 类 。 训 练 样本 
中 的 错误 数据 也 会 被 决策 树 学 习 ， 成 为 决策 树 的 部 分 ， 但 是 对 于 测试 数据 的 表现 就 没有 想象 
的 那么 好 ， 或 者 极 差 ， 这 就 是 所 谓 的 过 拟 合 (Overfitting) 问 题 。Quinlan 教 授 试 验 ， 在 数据 集 
中 ， 过 拟 合 的 决策 树 的 错误 率 比 经 过 简化 的 决策 树 的 错误 率 要 高 。 

Æ 


现在 问题 融 在 于 ， 如 何 (HOW) 在 原生 的 过 拟 合 决策 树 的 基础 上 ， 生 成 简化 版 的 决策 树 ? 可 以 
通过 勇 核 的 方法 来 简化 过 拟 合 的 决策 树 。 


剪 核 可 以 分 为 两 种 : 预 剪 术 (Pre-Pruning) 和 后 和 剪 核 (Post-Pruning), 下 面 我 们 来 详细 学 习 下 这 两 
种 方法 : PrePrune: 预 瘟 枚 ， 及 早 的 停止 树 增长 ， 方 法 可 以 人 参考 见 上 面 树 停 止 增 长 的 方法 。 
PostPrune : 后 瘟 枚 ， 在 已 生成 过 拟 合 决 策 树 上 进行 剪 校 ， 可 以 得 到 简化 版 的 前 术 决 策 树 。 

其 实 剪 校 的 准则 是 如 何 确 定 决 策 树 的 规模 ， 可 以 参考 的 剪 枝 思路 有 以 下 几 个 : 1: 使 用 训练 集 


合 (Training Set) 和 验证 集合 (Validation Set)， 来 评估 剪 梳 方 法 在 修剪 结 点 上 的 效用 2 : 使 用 
所 有 的 训练 集合 进行 训练 ， 但 是 用 统计 测试 来 估计 修 瘟 特定 结 点 是 否 会 改善 训练 集合 外 的 数 


据 的 评估 性 能 ， 如 使 用 Chi-Square (Quinlan, 1986) 测试 来 进一步 扩展 结 点 是 否 能 改善 整个 


分 类 效 据 的 性 能 ， 还 是 仅仅 改 番 了 当前 训练 集合 数据 上 的 性 能 。 3 : 使 用 明确 的 标准 来 衡量 训 
练 样 例 和 决策 树 的 复杂 度 ， 当 编码 长 度 最 小 时 ， 停 止 树 增长 ， 如 MDL(Minimum Description 
Length) 准 则 。 


1、Reduced-Error Pruning(REP 错误 率 降 低 剪 枝 ) 该 前 ole 
剪 的 候选 对 象 ， 决 定 是 否 修 剪 这 个 结 点 有 如 下 步 又 组 成 : 1: 删除 以 此 结 点 为 根 的 子 树 2 : 使 
其 成 为 叶子 结 点 3 : 赋予 该 结 点 关联 的 训练 数据 的 最 le 4: 当 修 前后 的 村 对 于 验证 集合 
的 性 能 不 会 比 原来 的 树 差 时 ， 才 真正 删除 该 结 点 因为 训练 集合 的 过 拟 合 ， 使 得 验证 集合 数据 
能 够 对 其 进行 修正 ， 反 复 进 行 上 面 的 操作 ， 从 底 向 上 的 义理 结 点 ， 删 | 除 那些 和 EJ RARER 
提高 验证 集合 的 精度 的 结 点 ， 鼻 到 进一步 修 竟 有 害 为 止 (有 害 是 指 修 亡 会 减低 验证 集合 的 精度 ) 
REP 是 最 简单 的 后 剪 核 方法 之 一 ， 不 过 在 数据 量 比较 少 的 情况 下 ，REP 方 法 趋 于 过 拟 合 而 较 
少 使 用 。 这 是 因为 训练 数据 集合 中 的 特性 在 前 校 过程 中 被 忽略 ， 所 以 在 验证 数据 集合 比 训练 
数据 集合 小 的 多 时 ， 要 注意 这 个 问题 。 尽管 REP 有 这 个 缺点 ， 不 过 REP 仍 然 作为 一 种 基准 来 
评价 其 它 剪 校 算法 的 性 能 。 它 对 于 两 阶段 决策 树 学 习 方法 的 优点 和 缺点 提供 了 了 一 个 很 好 的 
学 习 思 路 。 由 于 次 > 所 以 用 REP 理 术 后 的 决策 树 对 于 测试 样 例 
的 偏差 要 好 很 多 ， 能 够 解决 一 定 程度 的 过 拟 合 问 题 。 


2, Pessimistic Error Pruning(PEP, Ra BIR) ” 先 计 算 规则 在 它 应 用 的 训练 样 例 上 的 精度 ， 
然后 假定 此 估计 精度 为 二 项 式 分 布 ， 并 计算 它 的 标准 委 。 对 于 给 定 的 置信 区 间 ， 采 用 下 界 估 
计 作 为 规则 性 能 的 度量 。 A ENFAWR RA, 1% 5R BE IE PRIM 
Rink, MAARA DN, BARRER T. ZORAKRETEATAMAN, (8 
是 在 实践 中 有 效 。 PEP 为 了 提高 对 测试 集合 的 预测 可 靠 性 ，PEP 对 误 舌 估计 增加 了 连续 性 校 
iE(Continuity Correction)。PEP 方 法 认为 ， 如 果 : 


e(t) Sie'CT,)+S,(e'(T))) 
ERA : 


e’(t) 


成 立 ， 则 Tt 应 该 被 剪 


II 


(el) +5]; 
> eli) + ti 


其 中 ，e(t) 为 结 点 t 出 的 误差 ; 为 覆盖 Tt 的 叶子 结 点 ; Nt 为 子 树 Tt 的 叶子 树 ; n(t) 为 在 结 点 t 处 的 
训练 集合 数量 。PEP 采 用 自 顶 向 下 的 方式 ， 如 果 某 个 非 叶 子 结 点 符合 上 面 的 不 等 式 ， 就 裁剪 
掉 该 叶子 结 点 。 该 算法 被 认为 是 当前 决策 树 后 亡 枝 算法 中 经 度 比 较 高 的 算法 之 一 ， 但 是 人 馈 存 
在 有 缺陷 。 首 先 ，PEP 算 法 是 唯一 使 用 Top-Down 剪 枝 策略 ， 这 种 策略 会 导致 与 先 剪 枝 出 现 同 
HAY RR, Hike RST A a SRR RSS; 另外 PEP 方 法 会 有 前 校 失败 的 情况 
出 现 。 虽然 PEP 方 法 存在 一 些 局 限 性 ， 但 是 在 实际 应 用 中 表现 出 了 较 高 的 精度 ,。 两 外 PEP 方 


e (T,) 
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Cost-Complexity Pruning(CCP, Kits RE) CCP 方 法 包含 两 个 步骤 : 1: 从 原始 决策 树 TO 
开始 生成 一 个 子 树 序列 {T0、T1、T2、...、Tn}, 其 中 Ti+1 是 从 Ti 总 产生 ，Tn 为 根 节 点 2 : MF 
树 序 列 中 ， 根 据 树 的 真实 误差 估计 选择 最 佳 决 策 树 。 


对 于 分 类 回 为 树 中 的 每 一 个 非 叶子 节 扣 计 算 它 的 表面 误 磊 率 增益 值 a。 
R(t) 一 R(T;) 
Ny, | = 


Nz 是 子 树 中 包含 的 叶子 节点 个 数 ; 
R(t) 是 节点 {的 误差 代价 ， 如 果 该 节点 被 前 
R(t) = r(t) + p(t) 

r(t) 是 节点 t 的 误差 率 ; 


p(t) 是 节点 t 上 的 数据 占 所 有 效 据 的 比例 。 


R(TE) 是 子 树 T 的 误差 代价 ， 如 果 该 节点 不 被 剪 枝 。 它 等 于 子 树 Tt 上 所 有 叶子 节点 的 误差 代价 
之 和 。 
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Pogo SEF Ate A AM : 





1 类 2 


已 知 所 有 的 数据 总 共有 60 条 ， 则 节点 经 的 节点 误 短 代价 为 : 


R(t) =r(t) +p) = Ha =o 
子 树 误 看 代价 为 : 
RT) = RG) =F pG oto 
以 t4 为 根 节点 的 子 树 上 叶子 节点 有 3 个 ， 最 终 : 
7/60 -5/60 1 
Be 


找到 a 值 最 小 的 非 叶子 节点 ， 兮 其 左右 孩子 为 NULL。 当 多 个 非 叶子 节点 的 a 值 同时 达到 最 小 
时 ， 取 | wzr, 慑 大 的 进行 剪 枝 。 


航 术 过程 特别 重要 ， 所 以 在 最 优 决 策 树 生成 过 程 中 占有 重要 地 位 。 有 研究 表明 ， 剪 权 过 程 的 

要 性 要 比 树 生成 过 程 更 为 重要 ， 对 于 不 同 的 划分 标准 生成 的 最 大 树 (Maximum Tree), 435 
枝 之 后 都 能 够 保留 最 重要 的 属性 划分 ， 委 别 不 大 。 反 而 是 瘟 校 方法 对 于 最 优 树 的 生成 更 为 天 
键 。 


